Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search / LLaVA-CoT(LLaVA-o1)
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.1] o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。 本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。 論文参考訳(メタデータ) (Mon, 18 Nov 2024 16:15:17 GMT)
o1-like reasoning systemsを実現するための検討、「In this paper, we present a preliminary exploration into enhancing the reasoning abilities of LLMs through reward-guided tree search algorithms.」とのこと。Marco-o1の報告、DeepSeek-R1の主張(A Chinese lab has released a ‘reasoning’ AI model to rival OpenAI’s o1 | TechCrunch)を含め、速攻で近いものの提案が始まる激しい競争環境。マルチモーダルでの有効性も報告(下記)されていて今後が楽しみ。
サーベイに近いかと思いきや実験結果などもあり参考になる。
LLaVA-o1: Let Vision Language Models Reason Step-by-Step [33.7] LLaVA-o1は、自律的な多段階推論を実現するために設計された新しいVLMである。 チェーン・オブ・シークレットのプロンプトとは異なり、LLaVA-o1は独立に要約、視覚的解釈、論理的推論、結論生成の逐次的な段階に関与する。 100kのトレーニングサンプルと単純な推論時間スケーリング法により、LLaVA-o1はベースモデルよりも8.9%性能が向上する。 論文参考訳(メタデータ) (Fri, 15 Nov 2024 18:58:31 GMT)