Visual Planning: Let’s Think Only with Images [30.7] 我々は、特に空間的情報や幾何学的情報を含むタスクにおいて、言語が推論において最も自然で効果的なモダリティであるとは限らないと論じる。 そこで本研究では,テキストから独立して,純粋に視覚的な表現によるプランニングを可能にする,ビジュアルプランニングという新たなパラダイムを提案する。 このパラダイムでは、計画は視覚領域におけるステップバイステップの推論を符号化する一連の画像を通して実行される。 論文参考訳(メタデータ) (Fri, 16 May 2025 16:17:22 GMT)
「By enabling models to operate entirely through visual state transitions without textual mediation, we demonstrate that purely visual representations can lead to more effective and intuitive planning,」とのこと。テキストは強力だが万能というわけではなくタスクによっては計画レベルで画像が有効なことがあるのは納得感がある。とても面白い。GRITでも思ったが画像の力を使っていくアプローチはとても有望に思える。
GRIT: Teaching MLLMs to Think with Images [22.7] Grounded Reasoning with Images and Texts (GRIT) はMLLMを画像で考えるための新しい手法である。 GRITは自然言語と明示的な境界ボックス座標をインターリーブする推論連鎖を生成する。 GRITは例外的なデータ効率を実現し、既存のデータセットから20のイメージクエスト・アンサートレットを必要とする。 論文参考訳(メタデータ) (Wed, 21 May 2025 17:54:49 GMT)