Mimicking the Physicist’s Eye:A VLM-centric Approach for Physics Formula Discovery
Mimicking the Physicist’s Eye:A VLM-centric Approach for Physics Formula Discovery [98.6] VIPERR-aq1は、方程式推論のための視覚誘導を行うマルチモーダルモデルである。 視覚知覚、軌跡データ、象徴的推論を統合し、科学的発見過程をエミュレートする。 常に最先端のVLMベースラインを精度と解釈性で上回る。 論文参考訳(メタデータ) (Sun, 24 Aug 2025 14:34:21 GMT)
物理方程式発見タスクへの取り組み。PostTrainingによってフロンティアなモデルを超える性能。「Our framework draws inspiration from human scientific reasoning and follows a two-stage pipeline. In the first stage, Motion Structure Induction (MSI), the model undergoes Supervised Fine- Tuning (SFT), learning to interpret kinematic evidence under joint supervision of Chain-of-Thought (CoT) rationales and ground-truth equations, before producing initial symbolic hypotheses guided by causal CoT prompts. In the second stage, Reward-Guided Symbolic Calibration (RGSC), reinforcement learning with Group Relative Policy Optimization (GRPO) (Shao et al , 2024) re- fines these hypotheses using a structural reward function that favors topological correctness over」というフレームワークとのこと。