Thinking with Video, V-Thinker

推論時にマルチモーダルなデータを活用する研究が進んでいる。

  • V-Thinker: Interactive Thinking with Images [22.6]
    視覚中心推論の最近の進歩は、大型マルチモーダルモデル(LMM)のための有望な「シンキング・ウィズ・イメージ」パラダイムを探求している エンド・ツー・エンドの強化学習を通じてインタラクティブな視覚中心の思考を可能にする汎用マルチモーダル推論アシスタントであるV-Thinkerを提案する。 V-Thinkerは、一般的な推論シナリオと対話的な推論シナリオの両方において、強力なLMMベースのベースラインを一貫して上回る。
    論文  参考訳(メタデータ)   (Thu, 06 Nov 2025 15:32:29 GMT)
  • 「we introduce V-Thinker, a general-purpose multimodal reasoning assistant that fosters interactive vision-centric thinking via end-to-end reinforcement training.」と視覚を活用した思考を行うアシスタントの提案。
  • リポジトリはGitHub – We-Math/V-Thinker

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です