- Compositional Physical Reasoning of Objects and Events from Videos [122.7]
本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。 我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。 また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
論文 参考訳(メタデータ) (Fri, 02 Aug 2024 15:19:55 GMT) - ビデオ映像から物性を認識、推定するフレームワークPhysical Concept Reasoner (PCR)を提案。データCompositional Physical Reasoning (ComPhy) datasetも提供されている。
- 実社会での実装上とても重要な能力であり、GPT-4VやGeminiなど汎用モデルで解くのは簡単ではなさそうな結果。
- リポジトリはCompositional Physical Reasoning of Objects and Events from Videos (physicalconceptreasoner.github.io)