2021年10月15日 – arXiv最新論文の紹介

ConditionalQA: 条件に応じた回答を含むQAデータセット

ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers [93.6]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。このデータセットを ConditionalQA と呼びます。本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文参考訳（メタデータ） (Wed, 13 Oct 2021 17:16:46 GMT)
- 質問に対して「〇〇の場合はyes」「△△の場合はno」のように、回答に条件があるタイプのQAデータセット。機械的に解くことは簡単ではなく人間とのスコア差が大きいとのこと。この手の質問回答は現実社会で普通に見られるため重要なタスクであるとの印象。
- リポジトリはhttps://github.com/haitian-sun/ConditionalQA、リーダーボードも存在。

Dict-BERT: レアワードの定義を活用する事前学習モデル

Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.1]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文参考訳（メタデータ） (Wed, 13 Oct 2021 04:29:14 GMT)
- Wiktionaryを使用してレアなワードの定義をテキストの末尾に連結することで事前学習モデル（の下流タスクにおける）性能が向上したとの報告。実際に人間が辞書を引いているような動きであることが興味深い。

GEEP(GEnder Equality Prompt): 事前学習モデルのジェンダーバイアスを軽減する手法

Improving Gender Fairness of Pre-Trained Language Models without Catastrophic Forgetting [51.3]
本稿では,GEnder Equality Prompt (GEEP) という新しい手法を提案する。 GEEPは、凍結言語モデルに基づく性別バイアスを減らすための性別関連プロンプトを学習する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 11 Oct 2021 15:52:16 GMT)
- 事前学習モデルにおける職業を表す単語にはジェンダーバイアスがあること、例えば外科医は男性の職業とみなされることがある。この論文では「性中立データセット」を作成後に再学習するのではなく、元の事前学習モデルを凍結、学習可能パラメータ（職業を表すtoken embedding部分）を追加したうえでその部分だけを再学習することで性能劣化を避けながらジェンダーバイアスを軽減可能と報告している。