Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.8] 大規模言語モデルの自己改善のためのAlphaLLMを紹介する。 モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。 実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。 論文参考訳(メタデータ) (Thu, 18 Apr 2024 15:21:34 GMT)
Monte Carlo Tree Search + LLM、「we use the term option as a search node and propose option-level MCTS where each option represents a sequence of tokens, which can range from multiple tokens to several sentences.」というのが興味深く、性能向上にも寄与