Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.3] 大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。 このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。 低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。 論文参考訳(メタデータ) (Mon, 4 Apr 2022 17:57:11 GMT)
「First, the results presented here suggest that the improvements from scale for few-shot language understanding have not yet plateaued.」とある通りまだ発展が見込めるとのことで面白い。
Training Compute-Optimal Large Language Models [54.0] 私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。 計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。 チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る 論文参考訳(メタデータ) (Tue, 29 Mar 2022 13:38:03 GMT)
「Gopher is substantially over-sized and estimate that for the same compute budget a smaller model trained on more data will perform better.」という指摘が興味深く、モデルサイズに比べてデータが足りていない状況が多発していそう。
ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection [33.7] ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。 このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。 有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。 論文参考訳(メタデータ)参考訳(全文) (Thu, 17 Mar 2022 17:57:56 GMT)
Generating Training Data with Language Models: Towards Zero-Shot Language Understanding [35.9] 事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。 NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。 提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。 論文参考訳(メタデータ) (Wed, 9 Feb 2022 16:02:18 GMT)
Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8] 本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。 論文参考訳(メタデータ) (Fri, 28 Jan 2022 08:59:57 GMT)