Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.5]
効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
論文参考訳（メタデータ） (Tue, 24 Dec 2024 10:07:51 GMT)
（o1自体は利用していないと言われているが）o1 likeなシステムを作ろうとすると話題になるモンテカルロ木探索を対象としたベンチマーク
リポジトリはGitHub – HJYao00/Mulberry

コメントを残す

コメントを残す コメントをキャンセル