MarkupLM: マークアップ情報を扱える言語モデル

  • MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding [35.4]
    テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。 本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。 実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
    論文  参考訳(メタデータ)   (Sat, 16 Oct 2021 09:17:28 GMT)
    • テキストだけでなくマークアップ情報を併用して事前学習を行う言語モデルの提案。文書理解タスクで既存の強力なベースラインモデルを大幅に上回るとのこと。この手のデータは削除してしまうことも多いが情報があることは間違いない。自然な形で利用、性能向上に効果があるのは面白い。

教師無しのfine-tuning

  • Unsupervised Finetuning [80.6]
    ソースデータとターゲットデータを組み合わせて教師なしの微調整を行うための2つの戦略を提案する。 前者の戦略の動機は、事前訓練された表現空間を占有するために、少量のソースデータを追加することである。 後者の戦略の動機は、データ密度を高め、よりコンパクトな表現を学ぶことにある。
    論文  参考訳(メタデータ)   (Mon, 18 Oct 2021 17:57:05 GMT)
    • 教師無しのfine-tuning手法の提案、対象は画像処理。ドメイン適合と考えれば効果はありそうだが、実際にこの方針で性能が上がるのはすごい。

ML Defense Models Competition

文字ベースの機械翻訳を使わないのはなぜか?

  • Why don’t people use character-level machine translation? [69.5]
    文字レベルシステムがサブワードシステムに匹敵する証拠があるにもかかわらず、機械翻訳競争において競合する設定ではほとんど使われない。 文字レベルのMTシステムは、しばしばモチベーションが高いにもかかわらず、ドメインの堅牢性も、モルフォロジーの一般化も良くない。 一方、ソース側ノイズに対してより堅牢である傾向がある。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 16:43:31 GMT)
    • ニューラル機械翻訳ではサブワードベースのシステムが多く、文字ベースのシステムを使う事例が少ない理由を分析した論文。研究の進展で文字ベースのシステムでもサブワードに匹敵する性能が上がるが、計算効率が悪いという問題がある。また「匹敵する」だけでサブワードのシステムとの品質ギャップも存在する。文字ベースのシステムにあるソース側のノイズに強いという利点はこれらのギャップを埋めるのには十分でないと思う。

Machine Translationにおける多言語学習の意味

  • Breaking Down Multilingual Machine Translation [74.2]
    マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにも有益であることを示す。我々の LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 14:57:12 GMT)
    • マルチリンガルな学習の効果をエンコーダ、デコーダに分けて分析した論文。多言語トレーニングは「ローリソースな言語ではエンコーダとデコーダの両方にとって有益」「そうでない場合はエンコーダにとってのみ有益」とのこと。また、複数言語間のパラメータ共有状況を分析し言語クラスタの修正など改善方法を提案、効果を確認している。

T0: GPT-3の16分の1のサイズで強力なゼロショット性能

  • Multitask Prompted Training Enables Zero-Shot Task Generalization [70.1]
    本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。 様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。 このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 17:08:57 GMT)

ContraQA: 誤情報が混在したQA

  • ContraQA: Question Answering under Contradicting Contexts [86.0]
    矛盾する文脈下でのQAモデルの振る舞いを調査し,QAモデルに対する誤報のリスクについて検討する。 質問応答と誤情報検出を統合した対応策として,誤情報認識型QAシステムを構築した。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 01:55:18 GMT)
    • SQuADをベースに偽情報を混在したQAを作成、評価。既存のQAシステムの性能が大幅に劣化することを確認。実用上はfake news検知のようなものを内包しないといけないのだろうと思いつつ、人間でも難しいタスクが設定されつつある状況が興味深い。
    • データ等は公開予定とのこと。

データを集めるべきか、モデルを工夫すべきか

  • A Few More Examples May Be Worth Billions of Parameters [26.1]
    モデルパラメータ数の増加とラベル付き例数の増加のダイナミクスについて検討する。 オープンな質問応答タスクでは、トレーニングセットを拡大してもパフォーマンスは向上しない。 対照的に、分類、抽出的質問応答、および複数の選択タスクは、追加の例から非常に恩恵を受けており、数百のサンプルを集めることは、しばしば数十億のパラメータ分の価値がある。
    論文  参考訳(メタデータ)   (Fri, 8 Oct 2021 20:51:52 GMT)
    • 内容は論文中の図が分かりやすく、データを増やすよりパラメータを増加させた方が精度向上に効果がある場合(例:オープンなQA)を報告している。
    • データ収集を頑張るべきかモデルサイズを大きくするなどモデル側を頑張るべきかは良く議論になる。普通は前者の方が効果的とされることが多いが、実証的に確認するべきであることを再認識する報告。論文中に指摘がある通りオープンQAの形式にするな(難しいタスクに落とし込むな)という点も重要。

General Language Modelsからのナレッジグラフ作成

  • Symbolic Knowledge Distillation: from General Language Models to Commonsense Models [38.3]
    一般的な言語モデルは、コモンセンスモデルを訓練するための知識グラフを作成できる。 ニューラルモデルに加えて、記号的にテキストとして知識を蒸留する。 人間が作成したコモンセンス知識グラフが、私たちの自動蒸留変種に取って代わられるのは初めてです。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 14 Oct 2021 06:50:19 GMT)
    • GPT-3からデータを抽出、フィルタリング等により高品質化してGLMからのナレッジグラフを作成。量・質・多様性の観点で人が作成したものを上回り、元のGPT-3を上回るモデルが構築できたとのこと。「Machines can now win over humans for automatic knowledge graph construction.」というfindingsは興味深い。

SpeechT5: 音声情報向けT5

  • SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing [77.5]
    本稿では,自己教師付き音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。 SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。 テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。
    論文  参考訳(メタデータ)   (Thu, 14 Oct 2021 07:59:27 GMT)
    • T5に似た事前学習モデルを音声向けに構築、ASR、TTS、VC、SIDなど複数のタスクで効果を確認とのこと。TextlessNLPのような流れに向けた一歩になるのだろうか。
      • ASR: Automatic Speech Recognition
      • TTS: Text-To-Speech
      • VC: Voice Conversion
      • SID: Speaker IDentification