- Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning [122.8]
我々は、視覚的文書理解のために、視覚的に基底付けられたCoT推論を利用するように設計されたマルチモーダル推論フレームワークであるPoint-RFTを紹介した。 提案手法は2つの段階から構成される: まず、71Kの多様な視覚的推論問題からなるキュレートされたデータセットを用いてフォーマットの微調整を行い、それぞれが対応する視覚的要素に明示的に基づいた詳細なステップ・バイ・ステップの合理性でアノテートする。 ChartQAでは,テキストベースCoTのみに依存した強化微調整による精度83.92%を超え,精度を70.88%(言語微細化ベースライン)から90.04%に向上させる。
論文 参考訳(メタデータ) (Mon, 26 May 2025 08:54:14 GMT) - MLLMに対するPost training、マルチモーダルなLRM化につながる成果