Rho-1: Not All Tokens Are What You Need – arXiv最新論文の紹介

Rho-1: Not All Tokens Are What You Need [132.3]
「コーパス内のトークンはすべて、言語モデルトレーニングに等しく重要ではない」 Rho-1 は選択言語モデリング (SLM) を採用しており、所望の分布に合わせて有用なトークンを選択的に訓練する。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
論文参考訳（メタデータ） (Thu, 11 Apr 2024 17:52:01 GMT)
「Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution.」によって最終性能が上がるという報告。高品質（所望の）ドキュメントで参照モデルを構築し、その結果を利用してトークンを選択するアプローチのよう。
リポジトリはmicrosoft/rho: Token-level Data Filtering & Selective Pretraining of LLMs. (github.com)

コメントを残す

コメントを残す コメントをキャンセル