PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

  • PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding [21.9]
    視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。 本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。 以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
    論文  参考訳(メタデータ)   (Wed, 29 Jan 2025 03:52:39 GMT)
  • VLMが物理を理解しているかを測るベンチマークとAgenticな physical world understandingフレームワーク、PhysAgentの提案。
  • 現状の結果は意外なことに(?) o1 > InternVL2.5-38B > InternVL2.5-78B > GPT-4o > Gemini-1.5-pro
  • プロジェクトサイトはPhysBench、データセットはUSC-GVL/PhysBench · Datasets at Hugging Face

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です