When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

  • When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.7]
    MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。 546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
    論文  参考訳(メタデータ)   (Tue, 04 Nov 2025 18:00:51 GMT)
  • 「To bridge this gap, we introduce MIRA (Multimodal Imagination for Reasoning Assessment), a benchmark designed to evaluate reasoning scenarios where generating or leveraging intermediate visual representations is essential. Each instance is constructed according to three principles: (1) requiring intermediate visual cues to answer the question, (2) pairing each instance with annotated step-wise visual clues to enable evaluation under a Visual-CoT setup, and (3) enforcing strict human annotation and cross-validation to guarantee data quality.」と視覚的・画像的な中間表現を必要とする推論のためのベンチマークの提案。フロンティアモデルでも難しいタスクになっている(が、公開モデルも健闘しているように見える)
  • プロジェクトサイトはWhen Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

Thinking with Video, V-Thinker

推論時にマルチモーダルなデータを活用する研究が進んでいる。

  • V-Thinker: Interactive Thinking with Images [22.6]
    視覚中心推論の最近の進歩は、大型マルチモーダルモデル(LMM)のための有望な「シンキング・ウィズ・イメージ」パラダイムを探求している エンド・ツー・エンドの強化学習を通じてインタラクティブな視覚中心の思考を可能にする汎用マルチモーダル推論アシスタントであるV-Thinkerを提案する。 V-Thinkerは、一般的な推論シナリオと対話的な推論シナリオの両方において、強力なLMMベースのベースラインを一貫して上回る。
    論文  参考訳(メタデータ)   (Thu, 06 Nov 2025 15:32:29 GMT)
  • 「we introduce V-Thinker, a general-purpose multimodal reasoning assistant that fosters interactive vision-centric thinking via end-to-end reinforcement training.」と視覚を活用した思考を行うアシスタントの提案。
  • リポジトリはGitHub – We-Math/V-Thinker