- Better & Faster Large Language Models via Multi-token Prediction [29.1]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。 複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文 参考訳(メタデータ) (Tue, 30 Apr 2024 17:33:57 GMT) - 正直アイデアとしてはよく聞く予測対象の複線化、「Our experiments (up to 7B parameters and 1T tokens) show that this is increasingly useful for larger models and in particular show strong improvements for code tasks.」とのこと。実験的に示したのは重要な成果であると思う。
- 結果の解釈も参考になる。