LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating

  • LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating [40.4]
    大規模視覚言語モデル(LVLM)は文書理解能力を大幅に改善した。 既存の文書理解ベンチマークは少数のページしか処理できない。 半自動構築パイプラインを開発し,2,325の高品質な質問応答ペアを収集し,33,000ページ以上の文書を網羅する。
    論文  参考訳(メタデータ)   (Tue, 24 Dec 2024 13:39:32 GMT)
  • 文章理解ベンチマークの提案、非常に大規模なデータセット。分析が詳細に行われており、PymuPDFとDocMindの差も面白かった。GPT-4oにおいてはImage inputよりDocmindを通した方がスコアが高そう。
  • リポジトリはGitHub – dengc2023/LongDocURL

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です