VideoQA in the Era of LLMs: An Empirical Study

VideoQA in the Era of LLMs: An Empirical Study [108.4]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文参考訳（メタデータ） (Thu, 08 Aug 2024 05:14:07 GMT)
MLLM時代のVideo QAに関する検証。VQAというとVisualを思い浮かべるがVideoなQAも非常に多くのモデルが発表されている。。。
https://github.com/doc-doc/VideoQA-LLMs　がリポジトリとのことだが、現時点では４０４

コメントを残す

コメントを残す コメントをキャンセル