STAR: A Benchmark for Situated Reasoning in Real-World Videos

STAR: A Benchmark for Situated Reasoning in Real-World Videos [94.8]
本稿では,実世界のビデオに対して,状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマークを提案する。データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。本稿では,視覚知覚,状況抽象化,言語理解,機能推論を両立させることができる診断型ニューロシンボリックモデルを提案する。
論文参考訳（メタデータ） (Wed, 15 May 2024 21:53:54 GMT)
動画を通したinteraction, sequence, prediction, feasibilityのベンチマーク
プロジェクトサイトはSTAR: A Benchmark for Situated Reasoning in Real-World Videos (bobbywu.com)

コメントを残す

コメントを残す コメントをキャンセル