Cross-Lingual GenQA(Generative Question Answering ): クロスリンガルなQA

  • Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering Approach for Open-Domain Question Answering [77.0]
    オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。 我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
    論文  参考訳(メタデータ)   (Thu, 14 Oct 2021 04:36:29 GMT)
    • 複数の言語で一般的な質問に回答可能なモデルの提案。単言語のモデル:MONOLINGUAL GENQA、多言語のモデル:MULTILINGUAL GENQA、複数言語の回答を合成するCROSSLINGUAL GENQAを比較、単言語モデルよりも優れている場合があることを示している。
      • 言語間差異が大きく興味深い実験・結果だが(論文中にも指摘がある通り)途中に機械翻訳を挟んだ影響が気になる。

ConditionalQA: 条件に応じた回答を含むQAデータセット

  • ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers [93.6]
    条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。 このデータセットを ConditionalQA と呼びます。 本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
    論文  参考訳(メタデータ)   (Wed, 13 Oct 2021 17:16:46 GMT)
    • 質問に対して「〇〇の場合はyes」「△△の場合はno」のように、回答に条件があるタイプのQAデータセット。機械的に解くことは簡単ではなく人間とのスコア差が大きいとのこと。この手の質問回答は現実社会で普通に見られるため重要なタスクであるとの印象。
    • リポジトリはhttps://github.com/haitian-sun/ConditionalQA、リーダーボードも存在。

Dict-BERT: レアワードの定義を活用する事前学習モデル

  • Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.1]
    事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。 本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。 入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
    論文  参考訳(メタデータ)   (Wed, 13 Oct 2021 04:29:14 GMT)
    • Wiktionaryを使用してレアなワードの定義をテキストの末尾に連結することで事前学習モデル(の下流タスクにおける)性能が向上したとの報告。実際に人間が辞書を引いているような動きであることが興味深い。

GEEP(GEnder Equality Prompt): 事前学習モデルのジェンダーバイアスを軽減する手法

  • Improving Gender Fairness of Pre-Trained Language Models without Catastrophic Forgetting [51.3]
    本稿では,GEnder Equality Prompt (GEEP) という新しい手法を提案する。 GEEPは、凍結言語モデルに基づく性別バイアスを減らすための性別関連プロンプトを学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Oct 2021 15:52:16 GMT)
    • 事前学習モデルにおける職業を表す単語にはジェンダーバイアスがあること、例えば外科医は男性の職業とみなされることがある。この論文では「性中立データセット」を作成後に再学習するのではなく、元の事前学習モデルを凍結、学習可能パラメータ(職業を表すtoken embedding部分)を追加したうえでその部分だけを再学習することで性能劣化を避けながらジェンダーバイアスを軽減可能と報告している。

AutoML(Neural Architecture Search)に対する攻撃

  • On the Security Risks of AutoML [38.0]
    Neural Architecture Search(NAS)は、与えられたタスクに適したモデルを自動的に検索する、新たな機械学習パラダイムである。 手動で設計したモデルと比較すると、NAS生成モデルは様々な悪意ある攻撃に対して大きな脆弱性を被る傾向にある。 本稿では,セル深さの増大やスキップ接続の抑制など,このような欠点を軽減するための対策の可能性について論じる。
    論文  参考訳(メタデータ)   (Tue, 12 Oct 2021 14:04:15 GMT)
    • Neural Architecture Searchによるモデルは手動で設計した手法と比較して悪意のある攻撃の影響を受けやすいとの報告。NASでは学習時の早い段階で候補のモデルを評価するため、速く収束するモデルが選ばれる傾向があり、攻撃が容易とのこと。

ドキュメントの単純化タスク

  • Document-Level Text Simplification: Dataset, Criteria and Baseline [75.6]
    文書レベルのテキスト単純化の新しいタスクを定義し,検討する。 Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。 本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Oct 2021 08:15:31 GMT)

Unlabeledデータを用いたフィールド抽出モデル

  • Field Extraction from Forms with Unlabeled Data [53.9]
    本研究では,未ラベルデータを用いたフォームからフィールド抽出を行う新しいフレームワークを提案する。 我々は,未ラベル形式からノイズの多い擬似ラベルをマイニングするためのルールベース手法を開発した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 8 Oct 2021 17:50:12 GMT)
    • ルールベースの手法で疑似ラベルを付与して学習、その後transformerベースの手法でモデルを改善していくという手法でField Extractionを行うという論文。現実的な対応という感じがして参考になる。論文で指摘されているようにセンシティブな情報が含まれていることも多いのでアノテーションを行わない(行うにしても少なくて済む)手法は重要。

GPT-3を用いた教師無しのニューラル機械翻訳

  • Unsupervised Neural Machine Translation with Generative Language Models Only [19.7]
    生成事前学習言語モデルから、最先端の教師なしニューラルネットワーク翻訳システムを導出する方法を示す。 本手法は, few-shotの増幅, 蒸留, 逆翻訳の3段階からなる。
    論文  参考訳(メタデータ)   (Mon, 11 Oct 2021 17:35:34 GMT)
    • GPT-3を用いて情報を引き出しながら教師無しで機械翻訳モデルを構築するという論文。WMT14 English-FrenchでBLEU=42.1は相当高レベル。
    • GPT-3は英語への翻訳性能が高く、英語からの翻訳性能が低い。ディスカッションに書かれている通り、バックトランスレーションでこの非対称性が埋まっていくと考えると納得感のある結果。
    • 巨大モデルからうまく知識を引き出して高精度な機械翻訳モデルを作るというのは面白い。自然言語処理関連のモデル構築の常識が変わる気がする。今までは高品質対訳ペアデータを持っていることが競争優位性につながったが、これからは良いgigantic language modelを持つ事がそれにつながるのではないか。

M6-10T / Yuan 1.0 / Megatron-Turing NLG 530B 巨大な事前学習モデル

  • M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.2]
    極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。 本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略”Pseudo-to-Real”を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 8 Oct 2021 04:24:51 GMT)
    • 極めて巨大な言語モデルの学習方法を扱った論文。10日以内に512個のGPUだけで、非常に巨大な10Tパラメータのモデルを事前学習可能とのこと。
  • Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning [20.6]
    GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。 本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
    論文  参考訳(メタデータ)   (Sun, 10 Oct 2021 07:40:22 GMT)
    • 中国の245Bパラメータの巨大なモデル。5TBの高品質な中国語のデータで学習(4095 PetaFlops-days。。。)し様々なタスクで優れた性能を確認。
  • NVIDIAとMicrosoftが「Megatron-Turing NLG 530B」という530Bパラメータ(GPT-3の3倍)のモデルを発表している。(NVIDIAの記事Microsoftの記事)zero-shot、few-shotそれぞれで性能が改善しており巨大なモデル構築競争はしばらく続きそう。
    • 記事にある「We live in a time where AI advancements are far outpacing Moore’s law.」という記載が興味深い。

FLAN: 大規模テキストの正規化

  • A Fast Randomized Algorithm for Massive Text Normalization [26.6]
    大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。 本アルゴリズムは, 単語間のJaccard係数を利用して補正結果を提案する。 実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
    論文  参考訳(メタデータ)   (Wed, 6 Oct 2021 19:18:17 GMT)
    • 大規模なデータに対しても適用可能な正規化(ミススペルの修正など)手法の提案。機械学習を利用する手法ではなく単語(サブワード)間の Jaccard similarityに注目している。ノイズを加えたデータに対して既存手法より優れた性能を発揮するとのこと。
      • 有用な報告だと思うがFLAN(Finetuned LAnguage Net)と同じ略称でややこしい。こちらのFLANは何の略なんだろう?