事前学習の制度改善と下流タスクの精度の関係

  • Exploring the Limits of Large Scale Pre-training [34.2]
    大規模機械学習の最近の進歩は、事前学習の改善が、ほとんどの下流タスクに好適に反映されることを示唆している。 この現象を考察し、上流の精度を高めると、下流のタスクの性能が飽和することを示す。 本稿では、飽和現象を反映し、上流タスクと下流タスクのパフォーマンスの非線形関係をキャプチャする下流パフォーマンスモデルを提案する。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 14:49:00 GMT)
    • 事前学習と下流タスクの精度に関する検証。
    • 上流の精度を高めていくと下流タスクの性能は飽和する、というのは直感に沿っている。一方で「全ての下流タスクでうまく機能する事前訓練済みのチェックポイントは見つけられない」という指摘はそうであろうと思いつつも若干ショックではある。

自然言語処理におけるパラダイムシフト

  • Paradigm Shift in Natural Language Processing [66.6]
    ディープラーニングの時代、ほとんどのNLPタスクのモデリングは、いくつかの主流パラダイムに収束した。 近年, パラダイムシフトが増加傾向にあり, 一つのNLPタスクを別のタスクとして再構成することで解決している。 これらのパラダイムのいくつかは、多数のNLPタスクを統合する大きな可能性を示しており、多様なタスクを処理する単一のモデルを構築することができる。
    論文  参考訳(メタデータ)   (Sun, 26 Sep 2021 11:55:23 GMT)
    • 近年流行りのMLM+promptに至るまでのパラダイムを振り返る内容。タスクの整理など極めて参考になる内容。
      • 統合的なモデルが全てのタスクをうまく扱えるようになるかは謎だが、その可能性は低くないように思う。
    • プロジェクトサイトはhttps://txsun1997.github.io/nlp-paradigm-shift/

XLM-K: multilingual Knowledgeを取り入れた多言語事前学習モデル

  • XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual Knowledge [31.8]
    言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。 本稿では,事前学習に多言語知識を取り入れたクロス言語モデルXLM-Kを提案する。
    論文  参考訳(メタデータ)   (Sun, 26 Sep 2021 11:46:20 GMT)
    • 多言語プリトレーニングをMasked Entity Prediction TaskとObject Entailment Taskで強化、言語間の転移性能が向上したとの報告。mBERTやXLM-Rを上回る性能。

CPT(Cross-modal Prompt Tuning / Colorful Prompt Tuning):画像/言語のプロンプトチューニング

  • CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5]
    我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。 CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。 総合的な実験結果から、VL-PTM(Pre-Trained Vision-Language Models)のプロンプトチューニングは、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
    論文  参考訳(メタデータ)   (Fri, 24 Sep 2021 08:07:29 GMT)
    • 「画像中の参照領域を特定の色で塗りつぶす」+「テキスト部分にも対応する色を入れる」ことにより画像とテキストを結びつける事でvisual grounding問題を穴埋め問題に再構成しプロンプトを実現(論文の図を見るのが分かりやすい)。Few-shotとZero-shotの設定ではfine tuningを上回る性能とのこと。
      • 本当にできるのか?と思うくらい面白い成果。
    • データとコードが公開されるとのことで詳細はそれを確認したい。

マルチタスク・マルチリンガルのための大規模・効率的なMoE(Mixture of Experts)学習

  • Scalable and Efficient MoE Training for Multitask Multilingual Models [56.0]
    我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。 また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
    論文  参考訳(メタデータ)   (Wed, 22 Sep 2021 00:57:46 GMT)
    • 極めて大規模なモデルを構築可能な手法に関する論文。既存手法に比べて同じハードウェアで8倍のモデルサイズの学習を実現。
    • 構築された機械翻訳モデルの学習効率と性能が凄い。denseなモデルに比べて10倍収束が速い。単純な個別のバイリンガルモデルにくらべてマルチリンガル設定でBLEU +4pt、M2M-100に比べてBLEU + 3pt。などすごい数値が並んでいる。
    • リポジトリはhttps://github.com/microsoft/DeepSpeed、チュートリアルへのリンクもあって非常に参考になる。

UDG(Unsupervised Data Generation )によるゼロラベル学習

  • Towards Zero-Label Language Learning [20.3]
    本稿では自然言語処理(NLP)におけるゼロラベル学習について検討する。 トレーニング中、どこにでも人間の注釈付きデータを使用しず、モデルが純粋に合成データに基づいて訓練される。 GPT-3における数発の推論の成功に触発されて、教師なしデータ生成というトレーニングデータ生成手順を提案する。
    論文  参考訳(メタデータ)   (Sun, 19 Sep 2021 19:00:07 GMT)
    • 事前学習された言語モデル(GLM: Gigantic Language Model)で合成データを作成、それをもとにして学習する手法の提案。ラベル付きデータとの組み合わせによってSuperGLUEで優れた性能(現時点で2位)が達成できている。
      • 「リアルなデータではラベルが入力相当データの後に来るとは限らない、プロンプトは最適ではない」にそうだよなーと思った。
    • アプローチとしてはSTraTAに近いように思う。巨大言語モデルから必要なデータを引き出そうとしているように見え面白い。

Primer(PRIMitives searched transformER): 言語モデルのための効率的なアーキテクチャ

  • Primer: Searching for Efficient Transformers for Language Modeling [79.3]
    大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。 ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。 私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
    論文  参考訳(メタデータ)   (Fri, 17 Sep 2021 17:50:39 GMT)
    • Transformerの構造に手を入れ効率の高いアーキテクチャを進化的な手法で探索。500MパラメータのT5相当の実装で4.2倍の学習コスト削減を達成するPrimerというアーキテクチャを見つけたとの報告。主要な変更点は「Squared ReLU」と「MDHA: Multi-DConv-Head Attention (深さ方向のconvolution layerをQ, K, V projectionの後に配置)」。Primerはこの2点以外にも様々な修正が加えられているが、この変更のみを行ったバージョン(Primer-EZ)でも高い効果があるとのこと。著者はまずPrimer-EZで高速化効果を試し必要に応じて完全なPrimerを導入することを推奨している。
    • リポジトリはhttps://github.com/google-research/google-research/tree/master/primer

MDAPT(Multilingual Domain Adaptive PreTraining): 多言語ドメイン固有モデルの有効性

  • MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.6]
    一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。 本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 14 Sep 2021 11:50:26 GMT)
    • 金融やバイオなどあるドメイン固有の処理を行う多言語モデルを構築する場合、多言語ドメイン固有な事前学習(アダプト)を行うことが有効とした論文。様々なパターンで性能比較が行われており参考になる。(各言語のモデルを構築せずとも)固有ドメイン・多言語の統一モデルに意義があるとされているのが興味深い。
    • リポジトリはhttps://github.com/RasmusKaer/mDAPT_supplementshttps://github.com/mahartmann/mdapt

言語モデルのデトックス

  • Challenges in Detoxifying Language Models [44.5]
    大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。 安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。 我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
    論文  参考訳(メタデータ)   (Wed, 15 Sep 2021 17:27:06 GMT)
    • 大規模言語モデルから攻撃的なテキストなど問題のある部分を除く無毒化の研究報告。毒性スコアを効果的に減少させる手法は存在するが、そもそも何を問題のあるテキストとみなすか?という問いが未解決であるとの指摘は重い。また、毒性スコアを下げる対応によって社会的バイアスの増加(疎外されているグループに対する精度劣化)が起きる可能性があることは注意すべき事項であると思う。

HyperCLOVA: 韓国の大規模事前学習モデル

  • What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers [16.6]
    GPT-3は、数千億の大規模データに基づいて訓練された大規模言語モデル(LM)の、卓越したコンテキスト内学習能力を示す。 韓国中心の560Bトークンコーパスでトレーニングした82B GPT-3の韓国版、HyperCLOVAを紹介する。 我々は、プロンプトベースの学習のパフォーマンスの利点を示し、プロンプトエンジニアリングパイプラインにどのように組み込むことができるかを示す。
    論文  参考訳(メタデータ)   (Fri, 10 Sep 2021 03:32:19 GMT)
    • NAVERが構築した大規模事前学習モデルHyperCLOVAの論文。few-shotやPrompt tuningによる高い性能を確認。社内でHyperCLOVA StudioというNo Code AI paradigmを利用しているとのこと。