- Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.7]
本手法はモンテカルロ木探索とLLMに基づく反射による自己再生シミュレーションにより品質フィードバックを収集する。 本手法は,従来の強化学習手法よりも優れた性能でエージェントを訓練する上で有効であることを示す。
論文 参考訳(メタデータ) (Tue, 20 Aug 2024 08:22:04 GMT) - 「 (1) reflection and idea generation step and (2) the strategy improvement step」を繰り返しながら自己改善していく手法の提案。有効そう。
- リポジトリはStrategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search (llm-strategist.github.io)