ElitePLM: An Empirical Study on General Language Ability Evaluation of Pretrained Language Models [78.1] 本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。 実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。 論文参考訳(メタデータ) (Tue, 3 May 2022 14:18:10 GMT)
Pretrained Language Modelの詳細評価。PLMといっても事前学習の内容やデータ、モデルサイズなど多種多様でそれがどのような能力を持つか(何に適しているか)参考になる。
Flamingo: a Visual Language Model for Few-Shot Learning [95.9] この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。 柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。 一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。 論文参考訳(メタデータ) (Fri, 29 Apr 2022 16:29:01 GMT)
「First, the results presented here suggest that the improvements from scale for few-shot language understanding have not yet plateaued.」とある通りまだ発展が見込めるとのことで面白い。
英語とのバイリンガルモデルは日本語に対しても重要だと思っていて検証結果が面白かった。「bilingual KELIP can capture different characteristics of each cultural vision information for the same meaning of words but different languages」は非常に面白い性質。
KELIP = Korean and English bilingual contrastive Language-Image Pre-training?
Training Compute-Optimal Large Language Models [54.0] 私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。 計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。 チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る 論文参考訳(メタデータ) (Tue, 29 Mar 2022 13:38:03 GMT)
「Gopher is substantially over-sized and estimate that for the same compute budget a smaller model trained on more data will perform better.」という指摘が興味深く、モデルサイズに比べてデータが足りていない状況が多発していそう。
ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection [33.7] ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。 このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。 有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。 論文参考訳(メタデータ)参考訳(全文) (Thu, 17 Mar 2022 17:57:56 GMT)
Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models [90.2] 標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。 近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。 論文参考訳(メタデータ) (Mon, 14 Mar 2022 07:56:32 GMT)
Topic Discovery via Latent Space Clustering of Pretrained Language Model Representations [35.7] 本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。 提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。 論文参考訳(メタデータ) (Wed, 9 Feb 2022 17:26:08 GMT)
Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8] 本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。 論文参考訳(メタデータ) (Fri, 28 Jan 2022 08:59:57 GMT)