XLM-E: ELECTRA型の事前学習モデル

  • XLM-E: Cross-lingual Language Model Pre-training via ELECTRA [46.8]
    我々は,多言語コーパスと並列コーパスの両方で,XLM-Eという名前のモデルを事前学習する。 我々のモデルは、様々な言語間理解タスクにおけるベースラインモデルよりもはるかに低コストで性能を向上する。
    論文  参考訳(メタデータ)   (Wed, 30 Jun 2021 15:45:07 GMT)
    • 計算コストの低い事前学習モデル。XQuADやPAWS-Xなどcross lingualなタスクで100倍の計算コストがかかるXLM_Rを超える優れた性能。
    • Microsoftの成果。そのうち、https://github.com/microsoft/unilm にコードが公開されたりするのだろうか。

言語モデルを利用したマルチモーダルなFew Shotモデル

  • Multimodal Few-Shot Learning with Frozen Language Models [36.8]
    十分な規模でトレーニングを行うと、自動回帰言語モデルは、ほんの数例で促された後、新しい言語タスクを学習する顕著な能力を示す。 本稿では,このマイナショット学習能力をマルチモーダル環境(ビジョンと言語)に移すための,単純かつ効果的なアプローチを提案する。我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。 得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
    論文  参考訳(メタデータ)   (Fri, 25 Jun 2021 21:07:09 GMT)
    • 事前学習を行った言語モデルをマルチモーダル環境(画像とテキスト)に拡張する研究。言語モデルを構築しフリーズ。画像エンコーダをprompt作成用に構築。組み合わせるとマルチモーダルなFewShot可能なモデルとなるよう。
    • ほんとか?という感じで面白い結果。

事前学習した言語モデルからの社会的バイアス軽減

  • Towards Understanding and Mitigating Social Biases in Language Models [107.8]
    大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。 テキスト生成における社会的バイアスを軽減するためのステップを提案する。 我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
    論文  参考訳(メタデータ)   (Thu, 24 Jun 2021 17:52:43 GMT)
    • 偏見のような社会的バイアスを言語モデルから除去(緩和)する内容を扱った報告。社会的バイアスの定義を含め参考になる。提案手法はテキスト生成でバイアス緩和効果を示しているとのことだが、limitationには性能と公正さに強いトレードオフがあるとも書かれている。
    • コード等はhttps://github.com/pliang279/LM_biasにアップロードするとのこと。(現時点では入っていない)

Pre-Trained Models: 事前学習手法の整理

  • Pre-Trained Models: Past, Present and Future [8.5]
    大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。 AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。 本稿ではトランスファーラーニングと自己教師型学習との関係を深く考察しPTMの重要位置を明らかにしPTMの最新のブレークスルーを概観する。最後に, PTM の一連のオープンな問題と研究方向性について論じるとともに今後の研究に刺激を与え, 進展を期待する。
    論文  参考訳(メタデータ)   (Mon, 14 Jun 2021 02:40:32 GMT)
    • 事前学習モデルの現状をまとめた論文。広範な内容が整理されている。長めに見えるがそれぞれのパートは簡潔であり、この分野を概観するために非常に良い資料だと思う。

ImaginE: 想像力を持った評価指標

  • ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation [53.6]
    我々は、自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 CLIPとDALL-Eの助けを借りて、大規模な画像テキストペアで事前訓練された2つのクロスモーダルモデルを作成し、テキストスニペットの具体的想像力として自動的に画像を生成する。 いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることは、NLG評価にマルチモーダル情報を導入する大きな可能性を示している。
    論文  参考訳(メタデータ)   (Thu, 10 Jun 2021 17:59:52 GMT)
    • 文章生成タスクの評価指標としてマルチモーダル性を利用しようという研究。BERTScoreの発展形のようなもの。テキストから想像される画像を使っての評価が人の評価に近い場合があるというのは興味深い(BERT Scoreで良さそうだが・・・)。発想&論文中に出てくる画像は非常に面白い。

MusicBERT: 音楽を対象とした事前学習モデル

  • MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.9]
    シンボリック・ミュージックの理解とは、シンボリック・データから音楽を理解することを指す。 MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
    論文  参考訳(メタデータ)   (Thu, 10 Jun 2021 10:13:05 GMT)
    • BERTを音楽を対象に利用、音楽理解タスクでSOTA。マスキング戦略など音楽特有の対応を行っている。

Scaling Vision Transformers: 画像の大規模スケーリング

  • Scaling Vision Transformers [82.1]
    本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。 我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。 このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
    論文  参考訳(メタデータ)   (Tue, 8 Jun 2021 17:47:39 GMT)
    • 自然言語処理で効果的だった大規模化を画像で実施したもの。ImageNetでSOTAと効果があるよう。

MERLOT: ビデオを用いた大規模事前学習

  • MERLOT: Multimodal Neural Script Knowledge Models [74.1]
    我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。 
    論文  参考訳(メタデータ)   (Fri, 4 Jun 2021 17:57:39 GMT)
    • マルチモーダル事前学習モデル。ファインチューニングによって多くのタスクでsota。性能の向上幅も大きい。

バイト列(トークン化なし)でのT5

  • ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.5]
    最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。 標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。 また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
    論文  参考訳(メタデータ)   (Fri, 28 May 2021 07:03:22 GMT)

Transformer vs CNN

  • Are Pre-trained Convolutions Better than Pre-trained Transformers? [42.3]
    CNNベースの事前学習モデルは競争力があり、特定のシナリオではTransformerよりも優れています。 本稿で概説した知見は,事前学習とアーキテクチャの進歩が混在していることを示唆している。
    論文  参考訳(メタデータ)   (Fri, 7 May 2021 15:13:30 GMT)
    • 事前学習を用いた学習でCNNの方がTransformerより優れていることがあるとの報告。Transformer一択という今の雰囲気に一石を投じる内容。