ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning [103.8] ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。 ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。 その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。 論文参考訳(メタデータ) (Thu, 04 Dec 2025 18:59:52 GMT)
「We introduce ARM-Thinker, an agentic reasoning reward model that judges with an explicit think– act–verify loop: it plans reasoning steps, invokes multimodal tools (e g , document retrieval and navigation for long PDFs) to gather evidence, and issues an evidencegrounded scalar score with an interpretable rationale.」とAgenticな動作を持つ手法の提案。「We present a scalable data- generation pipeline that constructs verifiable discriminative preference pairs for training agentic reward models. Trained on this data, our ARMThinker-7B achieves performance competitive with, and in some cases superior to, proprietary models like GPT-4o on reward-modeling and tool-use benchmarks, demonstrating the effectiveness of agentic judgment.」とPost trainingはまだまだ有力な選択肢にも思える。