VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents

  • VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.7]
    言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。 VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか? 我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。 エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
    論文  参考訳(メタデータ)   (Sun, 19 Oct 2025 16:05:07 GMT)
  • 「How can we effectively teach VLMs to build internal world models through explicit visual state reasoning?」、「Vision-language Model (VLM) agentic tasks are inherently complex due to the challenges in understanding visual states, which often are partial and noisy Observations, fundamentally reframing the problem from an Markov Decision Process (MDP) to a more challenging Partially Observable Markov Decision Process (POMDP).」というモチベーションからWorld Modelの構築を推進するためのフレームワークを提案。「To optimize an agent’s world model reasoning, we propose turn-level WorldModeling Reward for a dense turn-level reward to evaluate the accuracy of the agent’s internal state simulation against ground-truth; to solve the critical challenge of long-horizon credit assignment, we propose Bi-Level GAE to first computes the value of an entire turn’s reasoning before propagating that credit precisely to the individual tokens. Our VAGEN framework significantly enhances task performance and visual reasoning quality for VLM in agentic tasks.」
  • プロジェクトサイトはVAGEN – VLM Agent Training

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です