PaLM: Pathways Language Model

  • PaLM: Scaling Language Modeling with Pathways [180.7]
    我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。 我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。 数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
    論文  参考訳(メタデータ)   (Tue, 5 Apr 2022 16:11:45 GMT)
    • 540-billion parameterで780 billion tokens のデータ& 6144個のTPU v4 を用いて構築された大規模モデル。BIG-benchで平均的な人間のパフォーマンスを上回る。
    • Discontinuous improvementsとして報告された内容が興味深く、8B→62Bパラメータへの改善と62B→540Bへの改善においてよく報告される“power law”に沿った改善ではない、非連続的な改善が見られたとのこと。
    • 「First, the results presented here suggest that the improvements from scale for few-shot language understanding have not yet plateaued.」とある通りまだ発展が見込めるとのことで面白い。

KELIP: 大規模バイリンガル・マルチモーダルモデル(韓国語/英語)

  • Large-scale Bilingual Language-Image Contrastive Learning [17.2]
    我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。 我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。 実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
    論文  参考訳(メタデータ)   (Mon, 28 Mar 2022 03:02:03 GMT)

Chinchilla: 予算内で最適な巨大言語モデル

  • Training Compute-Optimal Large Language Models [54.0]
    私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。 計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。 チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
    論文  参考訳(メタデータ)   (Tue, 29 Mar 2022 13:38:03 GMT)
    • 同じ計算予算で最適なパラメータ量や学習データ量を求める手法を用いて70BパラメータのChincillaを作成、Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), Megatron-Turing NLG (530B)といった他の巨大モデルを上回る結果を達成。
    • 「Gopher is substantially over-sized and estimate that for the same compute budget a smaller model trained on more data will perform better.」という指摘が興味深く、モデルサイズに比べてデータが足りていない状況が多発していそう。

ToxiGen: 機械作成された13のグループに対するHate Speech検出(有毒/良性文)のデータセット

  • ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection [33.7]
    ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。 このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。 有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 17 Mar 2022 17:57:56 GMT)
    • GPT-3を使って構築したHate speechのデータセット。ビームサーチ中にALICEと呼ばれる「事前訓練された言語モデルと毒性分類器間のゲーム」を入れることで品質の高い(検出の難しい)文を生成とのこと。

Delta Tuning: 事前学習モデルの効率的なチューニング

  • Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models [90.2]
    標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。 近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
    論文  参考訳(メタデータ)   (Mon, 14 Mar 2022 07:56:32 GMT)

TopClus: PLMを用いたトピッククラスタリング

Megatron-Turing NLG: 530Bの言語モデル

  • Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8]
    本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
    論文  参考訳(メタデータ)   (Fri, 28 Jan 2022 08:59:57 GMT)
    • 2ページ目の「Figure 1: Trend of sizes of state-of-the-art NLP models with time.」からも順調(?)にモデルサイズが大きくなっていることが分かる。学習用のシステム構成は560 ノードのDGX A100、1ノードあたり 8つの NVIDIA 80-GB A100 GPU、ピーク性能は1.4 exaFLOP/s (16-bit precision)とすごい。

Whose Language Counts as High Quality?

  • Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection [83.4]
    より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。  フィルタの質測定が,事実性や文学的評価といった他の感性指標と一致しないことを実証する。 高品質なコーパスを特権化することは言語イデオロギーを伴い,言語モデルのためのトレーニングコーパスの構築にはもっと注意が必要である,と我々は主張する。
    論文  参考訳(メタデータ)   (Wed, 26 Jan 2022 18:46:26 GMT)
    • テキストをフィルタリングし高品質化することは大規模事前学習の前処理として一般的に行われている。現状は裕福な人が書いた(立場の強い人が書いた)テキストがその実態以上に高品質と判定されており、暗黙的な不平等につながる危険があるとの指摘。
    • fugumtのフィルタリングルールでもドメイン名(第二レベルドメインなど)を大きな手掛かりとしており危険性を内包している可能性が高い。鋭い指摘だと思った。
    • リポジトリはGitHub – kernelmachine/quality-filter: Code for “Whose language is high quality?” paper

Omnivore: 多くのモダリティで効果的なモデル

  • Omnivore: A Single Model for Many Visual Modalities [47.9]
    以前の研究は、異なる視覚的モダリティを分離して研究し、画像、ビデオ、および3Dデータの認識のためのアーキテクチャを別々に開発してきた。 同一のモデルパラメータを用いて,画像,ビデオ,シングルビューの3Dデータの分類に優れる単一モデルを提案する。
    論文  参考訳(メタデータ)   (Thu, 20 Jan 2022 18:58:03 GMT)
    • 画像関連のデータ(普通の画像、動画、シングルビューの3D)について共通的に動作可能な(複数のモダリティに対応可能な)モデルの提案。リポジトリを見ると複数のタスクでSoTAを達成している。各モダリティ専用の構造でないにもかかわらず優れた性能を出せるのは驚き。

LaMDA: Language Models for Dialog Applications

  • LaMDA: Language Models for Dialog Applications [75.8]
    LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。 注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
    論文  参考訳(メタデータ)   (Thu, 20 Jan 2022 15:44:37 GMT)
    • 137Bパラメータ、1.56T wordsで事前学習された対話用事前学習モデル。計算時間は1024 TPU-v3 で57.7日間とのことで計算も非常に規模が大きい。バイアスの除去など安全性にも気を使っているとのこと。
    • 外部知識ソースにアクセス可能な事や論文で出ている事例も興味深い。対話インタフェースもE2Eでできるようになっていくのだろうか。