2022年1月 – ページ 3 – arXiv最新論文の紹介

MT-GBM: マルチタスクなGBM(LightGBM実装）

MT-GBM: A Multi-Task Gradient Boosting Machine with Shared Decision Trees [15.6]
マルチタスク学習のためのGBDT方式であるマルチタスク・グラディエント・ブースティング・マシン(MT-GBM)を提案する。 MT-GBMがメインタスクの性能を大幅に向上することを示す実験を行った。
論文参考訳（メタデータ）参考訳（全文） (Mon, 17 Jan 2022 06:43:14 GMT)
- GBMでマルチタスク学習を実現。LightGBMをベースに各特徴量に複数のラベル列を設定できる実装が提供されている。
- GitHub – mtgbmcode/mtgbmcode: mtgbm_code

Incidents1M: 自然災害の画像データセット

Incidents1M: a large-scale dataset of images with natural disasters, damage, and incidents [28.2]
洪水、竜巻、山火事などの自然災害は、地球が温暖化するにつれてますます広まりつつある。事故の発生時期や発生時期を予測することは困難であり、破壊的な出来事によって危険にさらされている人々の命を救うために、時折緊急対応が重要となる。ソーシャルメディア投稿は、災害の進行と余波を理解するために低レイテンシデータソースとして使用できるが、このデータを解析するのは、自動化された方法なしでは面倒である。本研究では,43のインシデントと49のカテゴリを含む977,088の画像を含む大規模マルチラベルデータセットであるインシデント1Mデータセットを提案する。
論文参考訳（メタデータ） (Tue, 11 Jan 2022 23:03:57 GMT)
- ソーシャルメディアで使われるような画像を対象とし、災害情報をラベリングしたデータセット。
- プロジェクトサイトはIncidents (mit.edu)、デモなども存在する。

機械学習を用いたアンチマネーロンダリングのサーベイ

Fighting Money Laundering with Statistics and Machine Learning: An Introduction and Review [95.4]
マネーロンダリングは深刻なグローバルな問題です。このトピックに関する統計学と機械学習の研究はほとんどない。大きな課題の1つは、公開データセットの欠如である。
論文参考訳（メタデータ） (Thu, 13 Jan 2022 13:54:31 GMT)
- AI利用のアンチマネーロンダリングのサーベイ。想像がつくことではあるが公開されているデータがほぼないことが大きな課題。これに加えて不均衡データであることも課題として挙げられている。
- 様々な取り組みを振り返るには良い内容。

事前学習モデルを活用した文書生成のサーベイ

A Survey of Pretrained Language Models Based Text Generation [97.6]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。 PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文参考訳（メタデータ） (Fri, 14 Jan 2022 01:44:58 GMT)
- PLM利用のテキスト生成に関するサーベイ、知識ベースQA、テキスト生成のサーベイ – arXiv最新論文の紹介 (devneko.jp)と同じチーム、同様のトピックではあるが、こちらの方がより詳細。分類も参考になる。

Grow-and-Clip: Explainable Question Answeringモデル

Grow-and-Clip: Informative-yet-Concise Evidence Distillation for Answer Explanation [22.2]
我々は、QAモデルの解釈可能性を高めるために、解答の証拠が重要であると論じる。我々は、証拠の概念を、情報的で簡潔で読みやすい文脈における支援事実として明確に定義する最初の人物である。本稿では, トレードオフ情報性, 簡潔性, 可読性からエビデンスを抽出するGCEDアルゴリズムを提案する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 13 Jan 2022 17:18:17 GMT)
- 下記5つのモジュールを用いたGrow-and-Clip Evidence Distillationアルゴリズムによる証拠の提案、人による検証結果も良好とのこと。構文解析を含むがっつりとしたパイプライン構成でE2Eでできるのはまだ先なのかなという感想。
  - Answer-oriented Sentences Extractor: 回答を得るための最小の文セットを選択
  - Question-relevant Words Selector: 上記分から質問と強く関連する単語を抽出
  - Weighted Syntactic Parsing Tree Constructor: 上記文の構文ツリーを作成
  - Evidence Forest Constructor: 質問に関連する単語、ツリー構造を用いてエビデンスとなりうる複数のツリーと回答となるツリーを構成
  - Optimal Evidence Distiller: エビデンスツリーの選択

CommonsenseQA 2.0: ゲーミフィケーションにより収集されたQAデータセット

CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.9]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文参考訳（メタデータ） (Fri, 14 Jan 2022 06:49:15 GMT)
- 高品質なデータを収集するため「AIを打ち負かす」ゲーミフィケーションを用いてベンチマークを構築。最善のモデル（11BパラメータのUNICORN）でも人間に比べて大幅にスコアが低い難しいデータセットとのこと。
- プロジェクトサイトはExposing the limits of AI through Gamification | CommonsenseQA 2.0 (allenai.github.io)、データのライセンスはCC-BYとのこと。

Multilingual Machine Translationの実践的アプローチ

Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning [48.2]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文参考訳（メタデータ） (Thu, 13 Jan 2022 18:09:08 GMT)
- 多言語機械翻訳モデルの実現に向けた様々な実験結果が参考になる。モデルが対応する言語数の増減、linguistic similarityを考慮した増減、パラ / モノリンガルデータ数が与える影響、ドメイン相違の影響、pretraining / finetuning / co-training / iterative back translationなど学習方法の影響など様々な観点があり興味深い。

大気汚染防止のためのDeep Learningを用いたダイナミックプライシング

Dynamic Price of Parking Service based on Deep Learning [68.8]
都市部における空気質の向上は、公共団体の主な関心事の一つである。この懸念は、大気の質と公衆衛生の間の証拠から生じる。規制された駐車場サービスにおける動的価格の提案について述べる。
論文参考訳（メタデータ）参考訳（全文） (Tue, 11 Jan 2022 20:31:35 GMT)
- ダイナミックプライシングにDeep Learningを活用。CNN, LSTM, U-Timeを比較している。手法選択はともかくとして、大気汚染防止のためという目的が興味深い。

Homepage2Vec

Language-Agnostic Website Embedding and Classification [12.9]
92言語で100万以上のWebサイトを持つデータセットをリリースし、Curlieから相対ラベルを収集しました。ホームページに基づいてWebサイトを分類・埋め込みするマシン学習モデルであるHomepage2Vecを紹介する。 Homepage2Vecは、マクロ平均F1スコア0.90のWebサイトを正しく分類し、低および高ソース言語で安定したパフォーマンスを示す。
論文参考訳（メタデータ） (Mon, 10 Jan 2022 22:31:48 GMT)
- ウェブサイトを分散表現にするHomepage2Vec。多言語（92言語）に対応、日本語も対応しているよう。WEBサイトを扱う場合の前処理に使えるかもしれない。
- リポジトリはGitHub – epfl-dlab/homepage2vec: Language-Agnostic Website Embedding and Classification

SCROLLS(Standardized CompaRison Over Long Language Sequences): 長いシーケンスに対する自然言語処理

SCROLLS: Standardized CompaRison Over Long Language Sequences [62.6]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。 SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文参考訳（メタデータ） (Mon, 10 Jan 2022 18:47:15 GMT)
- 一般的に対応が難しい長文を対象としたベンチマーク。タスクは要約、QAなど。
- プロジェクトサイトはSCROLLS Benchmark (scrolls-benchmark.com)、huggingfaceからも確認可能tau/scrolls · Datasets at Hugging Face

2022年1月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31