データを集めるべきか、モデルを工夫すべきか

  • A Few More Examples May Be Worth Billions of Parameters [26.1]
    モデルパラメータ数の増加とラベル付き例数の増加のダイナミクスについて検討する。 オープンな質問応答タスクでは、トレーニングセットを拡大してもパフォーマンスは向上しない。 対照的に、分類、抽出的質問応答、および複数の選択タスクは、追加の例から非常に恩恵を受けており、数百のサンプルを集めることは、しばしば数十億のパラメータ分の価値がある。
    論文  参考訳(メタデータ)   (Fri, 8 Oct 2021 20:51:52 GMT)
    • 内容は論文中の図が分かりやすく、データを増やすよりパラメータを増加させた方が精度向上に効果がある場合(例:オープンなQA)を報告している。
    • データ収集を頑張るべきかモデルサイズを大きくするなどモデル側を頑張るべきかは良く議論になる。普通は前者の方が効果的とされることが多いが、実証的に確認するべきであることを再認識する報告。論文中に指摘がある通りオープンQAの形式にするな(難しいタスクに落とし込むな)という点も重要。

General Language Modelsからのナレッジグラフ作成

  • Symbolic Knowledge Distillation: from General Language Models to Commonsense Models [38.3]
    一般的な言語モデルは、コモンセンスモデルを訓練するための知識グラフを作成できる。 ニューラルモデルに加えて、記号的にテキストとして知識を蒸留する。 人間が作成したコモンセンス知識グラフが、私たちの自動蒸留変種に取って代わられるのは初めてです。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 14 Oct 2021 06:50:19 GMT)
    • GPT-3からデータを抽出、フィルタリング等により高品質化してGLMからのナレッジグラフを作成。量・質・多様性の観点で人が作成したものを上回り、元のGPT-3を上回るモデルが構築できたとのこと。「Machines can now win over humans for automatic knowledge graph construction.」というfindingsは興味深い。

SpeechT5: 音声情報向けT5

  • SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing [77.5]
    本稿では,自己教師付き音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。 SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。 テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。
    論文  参考訳(メタデータ)   (Thu, 14 Oct 2021 07:59:27 GMT)
    • T5に似た事前学習モデルを音声向けに構築、ASR、TTS、VC、SIDなど複数のタスクで効果を確認とのこと。TextlessNLPのような流れに向けた一歩になるのだろうか。
      • ASR: Automatic Speech Recognition
      • TTS: Text-To-Speech
      • VC: Voice Conversion
      • SID: Speaker IDentification

Cross-Lingual GenQA(Generative Question Answering ): クロスリンガルなQA

  • Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering Approach for Open-Domain Question Answering [77.0]
    オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。 我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
    論文  参考訳(メタデータ)   (Thu, 14 Oct 2021 04:36:29 GMT)
    • 複数の言語で一般的な質問に回答可能なモデルの提案。単言語のモデル:MONOLINGUAL GENQA、多言語のモデル:MULTILINGUAL GENQA、複数言語の回答を合成するCROSSLINGUAL GENQAを比較、単言語モデルよりも優れている場合があることを示している。
      • 言語間差異が大きく興味深い実験・結果だが(論文中にも指摘がある通り)途中に機械翻訳を挟んだ影響が気になる。

ConditionalQA: 条件に応じた回答を含むQAデータセット

  • ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers [93.6]
    条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。 このデータセットを ConditionalQA と呼びます。 本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
    論文  参考訳(メタデータ)   (Wed, 13 Oct 2021 17:16:46 GMT)
    • 質問に対して「〇〇の場合はyes」「△△の場合はno」のように、回答に条件があるタイプのQAデータセット。機械的に解くことは簡単ではなく人間とのスコア差が大きいとのこと。この手の質問回答は現実社会で普通に見られるため重要なタスクであるとの印象。
    • リポジトリはhttps://github.com/haitian-sun/ConditionalQA、リーダーボードも存在。

Dict-BERT: レアワードの定義を活用する事前学習モデル

  • Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.1]
    事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。 本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。 入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
    論文  参考訳(メタデータ)   (Wed, 13 Oct 2021 04:29:14 GMT)
    • Wiktionaryを使用してレアなワードの定義をテキストの末尾に連結することで事前学習モデル(の下流タスクにおける)性能が向上したとの報告。実際に人間が辞書を引いているような動きであることが興味深い。

GEEP(GEnder Equality Prompt): 事前学習モデルのジェンダーバイアスを軽減する手法

  • Improving Gender Fairness of Pre-Trained Language Models without Catastrophic Forgetting [51.3]
    本稿では,GEnder Equality Prompt (GEEP) という新しい手法を提案する。 GEEPは、凍結言語モデルに基づく性別バイアスを減らすための性別関連プロンプトを学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Oct 2021 15:52:16 GMT)
    • 事前学習モデルにおける職業を表す単語にはジェンダーバイアスがあること、例えば外科医は男性の職業とみなされることがある。この論文では「性中立データセット」を作成後に再学習するのではなく、元の事前学習モデルを凍結、学習可能パラメータ(職業を表すtoken embedding部分)を追加したうえでその部分だけを再学習することで性能劣化を避けながらジェンダーバイアスを軽減可能と報告している。

AutoML(Neural Architecture Search)に対する攻撃

  • On the Security Risks of AutoML [38.0]
    Neural Architecture Search(NAS)は、与えられたタスクに適したモデルを自動的に検索する、新たな機械学習パラダイムである。 手動で設計したモデルと比較すると、NAS生成モデルは様々な悪意ある攻撃に対して大きな脆弱性を被る傾向にある。 本稿では,セル深さの増大やスキップ接続の抑制など,このような欠点を軽減するための対策の可能性について論じる。
    論文  参考訳(メタデータ)   (Tue, 12 Oct 2021 14:04:15 GMT)
    • Neural Architecture Searchによるモデルは手動で設計した手法と比較して悪意のある攻撃の影響を受けやすいとの報告。NASでは学習時の早い段階で候補のモデルを評価するため、速く収束するモデルが選ばれる傾向があり、攻撃が容易とのこと。

ドキュメントの単純化タスク

  • Document-Level Text Simplification: Dataset, Criteria and Baseline [75.6]
    文書レベルのテキスト単純化の新しいタスクを定義し,検討する。 Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。 本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Oct 2021 08:15:31 GMT)

Unlabeledデータを用いたフィールド抽出モデル

  • Field Extraction from Forms with Unlabeled Data [53.9]
    本研究では,未ラベルデータを用いたフォームからフィールド抽出を行う新しいフレームワークを提案する。 我々は,未ラベル形式からノイズの多い擬似ラベルをマイニングするためのルールベース手法を開発した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 8 Oct 2021 17:50:12 GMT)
    • ルールベースの手法で疑似ラベルを付与して学習、その後transformerベースの手法でモデルを改善していくという手法でField Extractionを行うという論文。現実的な対応という感じがして参考になる。論文で指摘されているようにセンシティブな情報が含まれていることも多いのでアノテーションを行わない(行うにしても少なくて済む)手法は重要。