ReST meets ReAct

  • ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.5]
    外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。 エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。 引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
    論文  参考訳(メタデータ)   (Fri, 15 Dec 2023 18:20:15 GMT)
  •  Reinforced Self-Training (ReST) を適用したReAct-style LLM agentの提案。ReAct的な動くで作ったtrajectoryのうち良いものを使ってfull fine-tuningとかなりの計算量が必要そうな手法。 少ない回数のイテレーションで良い性能を出せるとのこと。
  • 「employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation.」とあるが、自分で学んでいけるAIがてきつつあるんじゃないかという気もする。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です