Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

  • Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.5]
    効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。 我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。 我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
    論文  参考訳(メタデータ)   (Tue, 24 Dec 2024 10:07:51 GMT)
  • (o1自体は利用していないと言われているが)o1 likeなシステムを作ろうとすると話題になるモンテカルロ木探索を対象としたベンチマーク
  • リポジトリはGitHub – HJYao00/Mulberry

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です