MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

  • MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
    MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 17:59:26 GMT)
  • マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR+LLMを超えている。
  • リポジトリはMMLongBench-Doc (mayubo2333.github.io)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です