ReST meets ReAct – arXiv最新論文の紹介

ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.5]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文参考訳（メタデータ） (Fri, 15 Dec 2023 18:20:15 GMT)
Reinforced Self-Training (ReST) を適用したReAct-style LLM agentの提案。ReAct的な動くで作ったtrajectoryのうち良いものを使ってfull fine-tuningとかなりの計算量が必要そうな手法。少ない回数のイテレーションで良い性能を出せるとのこと。
「employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation.」とあるが、自分で学んでいけるAIがてきつつあるんじゃないかという気もする。

コメントを残す

コメントを残す コメントをキャンセル