Beyond Human Data

  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [105.5]
    人為的なデータに基づく微調整言語モデル(LM)が普及している。 我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
    論文  参考訳(メタデータ)   (Tue, 12 Dec 2023 23:16:16 GMT)
  • LLMへの合成データ適用が有効か検証した論文。生成→フィルタ→finetune→生成→・・・という自己学習形式。
  • 数学やコード生成で有効なのはそうなのかなと思う。limitationとして挙がっていた「Second, ReST𝐸𝑀 also requires access to a manually-designed or learned reward function, ideally one that can be computed automatically.」は重要。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です