Beyond Human Data – arXiv最新論文の紹介

Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [105.5]
人為的なデータに基づく微調整言語モデル(LM)が普及している。我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (Tue, 12 Dec 2023 23:16:16 GMT)
LLMへの合成データ適用が有効か検証した論文。生成→フィルタ→finetune→生成→・・・という自己学習形式。
数学やコード生成で有効なのはそうなのかなと思う。limitationとして挙がっていた「Second, ReST𝐸𝑀 also requires access to a manually-designed or learned reward function, ideally one that can be computed automatically.」は重要。

コメントを残す

コメントを残す コメントをキャンセル