2021年10月19日 – arXiv最新論文の紹介

T0: GPT-3の16分の1のサイズで強力なゼロショット性能

Multitask Prompted Training Enables Zero-Shot Task Generalization [70.1]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文参考訳（メタデータ） (Fri, 15 Oct 2021 17:08:57 GMT)
- PromptSourceという170以上のデータセットを用いて、T5をマルチタスクでfine tuning、9/11個のデータセットでGPT-3のパフォーマンスと一致 or 上回るスコア。大規模な言語モデルが苦手とするタスクを集めたBIG-bench（のサブセット）でもより大きな言語モデルよりも優れた性能を発揮。
- 25以上の組織から40人以上が関わっているとのことで本当にBigScience。
- リポジトリはhttps://github.com/bigscience-workshop/promptsource/、デモはhttps://huggingface.co/bigscience/T0pp、公式のtweet（https://twitter.com/BigscienceW/status/1450084553670938625）も参考になる。

ContraQA: Question Answering under Contradicting Contexts [86.0]
矛盾する文脈下でのQAモデルの振る舞いを調査し,QAモデルに対する誤報のリスクについて検討する。質問応答と誤情報検出を統合した対応策として,誤情報認識型QAシステムを構築した。
論文参考訳（メタデータ） (Fri, 15 Oct 2021 01:55:18 GMT)
- SQuADをベースに偽情報を混在したQAを作成、評価。既存のQAシステムの性能が大幅に劣化することを確認。実用上はfake news検知のようなものを内包しないといけないのだろうと思いつつ、人間でも難しいタスクが設定されつつある状況が興味深い。
- データ等は公開予定とのこと。

A Few More Examples May Be Worth Billions of Parameters [26.1]
モデルパラメータ数の増加とラベル付き例数の増加のダイナミクスについて検討する。オープンな質問応答タスクでは、トレーニングセットを拡大してもパフォーマンスは向上しない。対照的に、分類、抽出的質問応答、および複数の選択タスクは、追加の例から非常に恩恵を受けており、数百のサンプルを集めることは、しばしば数十億のパラメータ分の価値がある。
論文参考訳（メタデータ） (Fri, 8 Oct 2021 20:51:52 GMT)
- 内容は論文中の図が分かりやすく、データを増やすよりパラメータを増加させた方が精度向上に効果がある場合（例：オープンなQA）を報告している。
- データ収集を頑張るべきかモデルサイズを大きくするなどモデル側を頑張るべきかは良く議論になる。普通は前者の方が効果的とされることが多いが、実証的に確認するべきであることを再認識する報告。論文中に指摘がある通りオープンQAの形式にするな（難しいタスクに落とし込むな）という点も重要。