Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

  • Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.7]
    本手法はモンテカルロ木探索とLLMに基づく反射による自己再生シミュレーションにより品質フィードバックを収集する。 本手法は,従来の強化学習手法よりも優れた性能でエージェントを訓練する上で有効であることを示す。
    論文  参考訳(メタデータ)   (Tue, 20 Aug 2024 08:22:04 GMT)
  • 「 (1) reflection and idea generation step and (2) the strategy improvement step」を繰り返しながら自己改善していく手法の提案。有効そう。
  • リポジトリはStrategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search (llm-strategist.github.io)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です