- LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating [40.4]
大規模視覚言語モデル(LVLM)は文書理解能力を大幅に改善した。 既存の文書理解ベンチマークは少数のページしか処理できない。 半自動構築パイプラインを開発し,2,325の高品質な質問応答ペアを収集し,33,000ページ以上の文書を網羅する。
論文 参考訳(メタデータ) (Tue, 24 Dec 2024 13:39:32 GMT) - 文章理解ベンチマークの提案、非常に大規模なデータセット。分析が詳細に行われており、PymuPDFとDocMindの差も面白かった。GPT-4oにおいてはImage inputよりDocmindを通した方がスコアが高そう。
- リポジトリはGitHub – dengc2023/LongDocURL