コンテンツへスキップ
- OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.6]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。 その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文 参考訳(メタデータ) (Tue, 31 Dec 2024 07:32:35 GMT)
- MLLMを対象としたOCRベンチマーク、「After carefully benchmarking state-of-the-art LMMs on OCRBench v2, we find that 36 out of 38 LMMs score below 50 (100 in total) and suffer from five-type limitations, including less frequently encountered text recognition, finegrained perception, layout perception, complex element parsing, and logical reasoning.」とのこと。
- リポジトリはhttps://github.com/YuliangLiu/MultimodalOCR
- CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
論文 参考訳(メタデータ) (Tue, 03 Dec 2024 07:03:25 GMT)
- MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
- リポジトリはhttps://github.com/QwenLM/CC-OCR
- Kosmos-2.5: A Multimodal Literate Model [143.5]
Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。 テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
論文 参考訳(メタデータ) (Wed, 20 Sep 2023 15:50:08 GMT)
- Kosmosの新バージョン。コア部分はencoder-only/encoder-decoder model から decoder-only modelへ移行しており生成系AIのようなアーキテクチャになっている。商用製品を上回る性能とのこと。
- プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)
- OCR Improves Machine Translation for Low-Resource Languages [10.0]
我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるOCR4MTを導入し,公開する。 我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。 次に,OCRエラーが機械翻訳性能に与える影響について検討する。
論文 参考訳(メタデータ) (Sun, 27 Feb 2022 02:36:45 GMT)- OCRによって得られたモノリンガルデータは(リソースが少ない言語の)械翻訳モデルの性能向上に有効という論文。OCRエラーのタイプ別にも分析がされており、「replacement OCR error」が機械翻訳モデルに最もダメージを与えるとのこと。
- 現時点ではデータ等はアップされていない。
- TableParser: Automatic Table Parsing with Weak Supervision from Spreadsheets [5.5]
本研究では,ネイティブPDFとスキャン画像の両方のテーブルを高精度に解析できるシステムを提案する。 また、スプレッドシートベースの弱監視機構を構成する TableAnnotator と ExcelAnnotator も作成します。
論文 参考訳(メタデータ) (Wed, 5 Jan 2022 15:21:06 GMT)
- Donut: Document Understanding Transformer without OCR [17.4]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。 提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (Tue, 30 Nov 2021 18:55:19 GMT)- OCRを用いないドキュメント理解手法の提案。レシート読み取りタスクにおいてend to endででOCR→BERTより大幅に優れているのは驚き。
- CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.1]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。 我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。 提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (Sun, 24 Oct 2021 00:21:46 GMT)- WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ(のスクリーンショット)にアノテーションを行いモデル構築を実施。データセットも公開されている。
- 人間的というか力業的というか悩ましいが、性能向上効果があるのであれば汎用的なアプローチであると思う。
- TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models [47.5]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。 TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。 実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (Tue, 21 Sep 2021 16:01:56 GMT)