2021年6月 – ページ 4 – arXiv最新論文の紹介

MusicBERT: 音楽を対象とした事前学習モデル

MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.9]
シンボリック・ミュージックの理解とは、シンボリック・データから音楽を理解することを指す。 MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文参考訳（メタデータ） (Thu, 10 Jun 2021 10:13:05 GMT)
- BERTを音楽を対象に利用、音楽理解タスクでSOTA。マスキング戦略など音楽特有の対応を行っている。

Learning Multilingual Representation for Natural Language Understanding with Enhanced Cross-Lingual Supervision [42.7]
本稿では,MA(Mixed Attention)の代替として,DA(Decomposed attention)というネットワークを提案する。 DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
論文参考訳（メタデータ） (Wed, 9 Jun 2021 16:12:13 GMT)
- mBERTのようなマルチリンガルモデルによってゼロショットで他言語に対応可能なモデルを構築できることが知られている。バイリンガルな言語間コーパス（翻訳文によるコーパス）の情報を活用してより良い事前学習モデルを作ったという報告。

A Simple Recipe for Multilingual Grammatical Error Correction [6.3]
本稿では,最新の多言語文法的誤り訂正(GEC)モデルを学習するためのレシピを提案する。まず,多数の合成例を生成するための言語に依存しない手法を提案する。第2の要素は、大規模多言語言語モデルを使用することである。
論文参考訳（メタデータ） (Mon, 7 Jun 2021 17:47:04 GMT)
- 大規模事前学習モデルmT5＋データクリーニングによってGECでSOTA。データ数が一定以上であればクリーニングは効果的、モデル規模の増加は性能向上に効果的であったと意外性はないが重要な結果。
- データセット等はhttps://github.com/google-research-datasets/clang8からアクセス可能とのこと。

Scaling Vision Transformers [82.1]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文参考訳（メタデータ） (Tue, 8 Jun 2021 17:47:39 GMT)
- 自然言語処理で効果的だった大規模化を画像で実施したもの。ImageNetでSOTAと効果があるよう。

Large-scale Unsupervised Semantic Segmentation [163.4]
本稿では, 大規模教師無しセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。 ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。
論文参考訳（メタデータ） (Sun, 6 Jun 2021 15:02:11 GMT)
- 教師無し前提のセマンティックセグメンテーションタスク。規模が大きく様々な場所で用いられそう。

Neural Auction: End-to-End Learning of Auction Mechanisms for E-Commerce Advertising [42.7]
我々は,オークションからコンテキストを効率的に抽出する深層モデルを開発し,オークションデザインのための豊富な特徴を提供する。タオバオのEコマース広告システムにDNAが配備されている。
論文参考訳（メタデータ） (Mon, 7 Jun 2021 13:20:40 GMT)
- 広告のオークションにディープラーニングモデルを開発、適用したという報告。様々な指標を最適化するには従来の手法より優れているとのこと。

X-volution: On the unification of convolution and self-attention [52.8]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。提案したX-volutionは、非常に競争力のある視覚的理解の改善を実現する。
論文参考訳（メタデータ） (Fri, 4 Jun 2021 04:32:02 GMT)
- 畳み込み + Self-attentionによって局所的および非局所的特徴相互作用を統一。ベースラインに対してimagenet分類における+1.2% top-1精度、+1.7 box ap、coco検出とセグメンテーションにおける+1.5 mask apを実現したとのこと。
- 組み合わる系の成果。この手の話も増えていくのだろうと思う。

MERLOT: Multimodal Neural Script Knowledge Models [74.1]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文参考訳（メタデータ） (Fri, 4 Jun 2021 17:57:39 GMT)
- マルチモーダル事前学習モデル。ファインチューニングによって多くのタスクでsota。性能の向上幅も大きい。

Conversational Question Answering: A Survey [18.4]
本調査は,会話質問回答(CQA)の最先端研究動向を包括的に概観する試みである。この結果から,会話型AIの分野をさまざまな観点から活性化する1ターンから多ターンQAへの傾向が示唆された。
論文参考訳（メタデータ） (Wed, 2 Jun 2021 01:06:34 GMT)
- 会話関連の質問回答タスクのサーベイ。46ページと広範にわたるものであり、カテゴライズなども参考になる。

CitationIE: Leveraging the Citation Graph for Scientific Information Extraction [89.3]
科学的文書から重要な情報を自動抽出することは、科学者がより効率的に働き、科学的進歩のペースを加速するのに役立つ可能性がある。引用論文と引用論文の参照リンクの引用グラフを使用する。最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文参考訳（メタデータ） (Thu, 3 Jun 2021 03:00:12 GMT)
- 引用関係を情報抽出に併用。DeepLearningを活用、最先端の知見を用いて実装を行っている。https://github.com/viswavi/CitationIE