CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

  • CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
    CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
    論文  参考訳(メタデータ)   (Tue, 03 Dec 2024 07:03:25 GMT)
  • MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
  • リポジトリはhttps://github.com/QwenLM/CC-OCR

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です