ReST meets ReAct ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.5]外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。 エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。 引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。論文 参考訳(メタデータ) (Fri, 15 Dec 2023 18:20:15 GMT) Reinforced Self-Training (ReST) を適用したReAct-style LLM agentの提案。ReAct的な動くで作ったtrajectoryのうち良いものを使ってfull fine-tuningとかなりの計算量が必要そうな手法。 少ない回数のイテレーションで良い性能を出せるとのこと。 「employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation.」とあるが、自分で学んでいけるAIがてきつつあるんじゃないかという気もする。