A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

  • A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [77.0]
    LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。 これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。 LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 18:59:27 GMT)
  • 「We present LongShOTBench, a comprehensive diagnostic benchmark for evaluating MLLMs on long-form, multi- modal video understanding, integrating vision, speech, and audio across hour-long contexts. Its open-ended, intent- driven questions and rubric-based evaluation provide fine- grained, interpretable diagnostics across perception, reason- ing, and agentic tool-use tasks.」というベンチマーク。フロンティアモデルでも解くのが難しいのが興味深いのと、うまくパイプラインを構成しAgenticに使うと小規模モデルでも一定対応できるという点も興味深い。
  • リポジトリは、GitHub – mbzuai-oryx/LongShOT: A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です