OCR – arXiv最新論文の紹介

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.6]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文参考訳（メタデータ） (Tue, 31 Dec 2024 07:32:35 GMT)
MLLMを対象としたOCRベンチマーク、「After carefully benchmarking state-of-the-art LMMs on OCRBench v2, we find that 36 out of 38 LMMs score below 50 (100 in total) and suffer from five-type limitations, including less frequently encountered text recognition, finegrained perception, layout perception, complex element parsing, and logical reasoning.」とのこと。
リポジトリはhttps://github.com/YuliangLiu/MultimodalOCR

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
論文参考訳（メタデータ） (Tue, 03 Dec 2024 07:03:25 GMT)
MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
リポジトリはhttps://github.com/QwenLM/CC-OCR

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model [22.8]
我々は,OCR-2.0の到来を促進するために,汎用OCR理論と優れたモデル,すなわちGOTを提案する。 GOTは580Mパラメータを持ち、高圧縮エンコーダと長文デコーダからなる統一的でエレガントでエンドツーエンドのモデルである。 OCR-2.0モデルとして、GOTは様々なOCRタスクで上記の「キャラクタ」を処理できる。
論文参考訳（メタデータ） (Tue, 03 Sep 2024 08:41:31 GMT)
OCRの拡張？非常に面白いが「Cとは？」となる論文
リポジトリはGitHub – Ucas-HaoranWei/GOT-OCR2.0: Official code implementation of General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Kosmos-2.5

Kosmos-2.5: A Multimodal Literate Model [143.5]
Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
論文参考訳（メタデータ） (Wed, 20 Sep 2023 15:50:08 GMT)
Kosmosの新バージョン。コア部分はencoder-only/encoder-decoder model から decoder-only modelへ移行しており生成系AIのようなアーキテクチャになっている。商用製品を上回る性能とのこと。
プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

Single-Point Scene Text Spotting

SPTS v2: Single-Point Scene Text Spotting [147.0]
トレーニングシーンのテキストスポッティングモデルは、非常に低コストの単一点アノテーションで実現できることを示す。既存のベンチマークデータセットの実験では、SPTS v2が以前の最先端のシングルポイントテキストスポッターより優れていることが示されている。
論文参考訳（メタデータ） (Wed, 4 Jan 2023 14:20:14 GMT)
画像からのシーン理解（OCR)では通常バウンディングボックスを用いたアノテーションが行われるが、1点の情報（テキストスポッティング）で十分な性能が出せるとの指摘。アノテーションコストが劇的に下がる。
リポジトリはGitHub – shannanyinxiang/SPTS: Official implementation of SPTS: Single-Point Text Spotting

OCRデータは機械翻訳モデルの性能を向上させるか

OCR Improves Machine Translation for Low-Resource Languages [10.0]
我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるOCR4MTを導入し,公開する。我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。次に,OCRエラーが機械翻訳性能に与える影響について検討する。
論文参考訳（メタデータ） (Sun, 27 Feb 2022 02:36:45 GMT)
- OCRによって得られたモノリンガルデータは（リソースが少ない言語の）械翻訳モデルの性能向上に有効という論文。OCRエラーのタイプ別にも分析がされており、「replacement OCR error」が機械翻訳モデルに最もダメージを与えるとのこと。
- 現時点ではデータ等はアップされていない。

TableParser: PDFや画像からの表構造解析

TableParser: Automatic Table Parsing with Weak Supervision from Spreadsheets [5.5]
本研究では,ネイティブPDFとスキャン画像の両方のテーブルを高精度に解析できるシステムを提案する。また、スプレッドシートベースの弱監視機構を構成する TableAnnotator と ExcelAnnotator も作成します。
論文参考訳（メタデータ） (Wed, 5 Jan 2022 15:21:06 GMT)
- テーブル構造を解析するためのフレームワークの提案。アノテーションツールの提供など実利用しやすそうな印象。
- リポジトリはGitHub – DS3Lab/TableParser: Repo for “TableParser: Automatic Table Parsing with Weak Supervision from Spreadsheets” at SDU@AAAI-22

Donut: OCRを用いないドキュメント理解

Donut: Document Understanding Transformer without OCR [17.4]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (Tue, 30 Nov 2021 18:55:19 GMT)
- OCRを用いないドキュメント理解手法の提案。レシート読み取りタスクにおいてend to endででOCR→BERTより大幅に優れているのは驚き。

CoVA(Context-aware Visual Attention): DOMを使わないWEBページからの情報抽出

CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.1]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文参考訳（メタデータ） (Sun, 24 Oct 2021 00:21:46 GMT)
- WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ（のスクリーンショット）にアノテーションを行いモデル構築を実施。データセットも公開されている。
  - 人間的というか力業的というか悩ましいが、性能向上効果があるのであれば汎用的なアプローチであると思う。
- リポジトリはhttps://github.com/kevalmorabia97/cova-web-object-detection

TrOCR: TransformerによるOCR

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models [47.5]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。 TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (Tue, 21 Sep 2021 16:01:56 GMT)
- CNN＋RNNで構成されることの多いOCRをTransformerを用いて改善。事前学習済み画像用Transfomerと事前学習済みテキスト用Transformerの構成。後処理なしでsotaを達成とのこと。
  - SROIE task2ではsotaではなさそうだが相当高精度であることは確か。
- リポジトリはhttps://github.com/microsoft/unilm/tree/master/trocrとのことだが現時点ではまだアップロードされていない。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31