2022年4月26日 – arXiv最新論文の紹介

コンタミとCross Lingual性

Language Contamination Explains the Cross-lingual Capabilities of English Pretrained Models [79.4]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。これにより、大規模なデータセットで数十億の外国語トークンが生成される。そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文参考訳（メタデータ）参考訳（全文） (Sun, 17 Apr 2022 23:56:54 GMT)
- 英語で事前学習された事前学習モデルが他の言語でも有効なことがある理由をデータのコンタミによるものであると指摘した論文。
- クローリング結果の言語を統一するクレンジングは困難で妥当な内容と思う。（とはいえ＆完全否定されているわけではないが）言語間でも共通な構造みたいなものを捉えていて欲しかった気もする。

Natural Instructions v2: 自然言語で説明されたタスク

Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks [95.1]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文参考訳（メタデータ）参考訳（全文） (Sat, 16 Apr 2022 03:12:30 GMT)
- 自然言語で説明が付与されたタスク・データセット。
  - 自然言語で命令すればタスクをこなしてくれるモデルの実現が近づいている印象があり、重要なデータセットだと思う。
- Learning From Instructions (allenai.org)