- MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文 参考訳(メタデータ) (Mon, 01 Jul 2024 17:59:26 GMT) - マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR+LLMを超えている。
- リポジトリはMMLongBench-Doc (mayubo2333.github.io)