MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns

  • MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.1]
    MonkeyOCR v1.5は、2段階の解析パイプラインを通じてレイアウト理解とコンテンツ認識の両方を強化する、統一されたビジョン言語フレームワークである。 複雑なテーブル構造に対処するために,レンダリング・アンド・コンペアアライメントによる認識品質の評価を行う視覚的一貫性に基づく強化学習手法を提案する。 組込み画像を含むテーブルの信頼性の高い解析と、ページや列を横断するテーブルの再構築を可能にするために、2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingが導入されている。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 01:48:44 GMT)
  • MonkeyOCRのアップデート、「Comprehensive experiments on OmniDocBench v1.5 demonstrate that MonkeyOCR v1.5 achieves state-of-the-art performance, outperforming PPOCR-VL and MinerU 2.5 while showing exceptional robustness in visually complex document scenarios.」とのこと。
  • リポジトリはGitHub – Yuliang-Liu/MonkeyOCR: A lightweight LMM-based Document Parsing Model

ChatGPT Atlas, Ring-1T, DeepSeek OCR, olmOCR 2

先週はChatGPT Atlas(ChatGPT Atlas)の話題が多かった。GUI Agent(より正確にはブラウザエージェント)のように人が操作しているようにUIを使うエージェントには期待大。

Ring-1TはAnt groupによるLRM、1TパラメータのMoE構成で性能も高い。

また、DeepSeek OCRもバズっていた。OCR性能というよりもコンテキストとして画像データを使う有効性が興味深い。OCRとしてはOlmoOCRのv2も出ていてOSSの動きも盛ん。

  • DeepSeek-OCR: Contexts Optical Compression [15.6]
    我々は,DeepSeek-OCRを,光学的2次元マッピングによる長期コンテキストの圧縮の実現可能性に関する最初の調査として紹介する。 DeepSeek-OCRはDeepEncoderとDeepSeek3B-MoE-A570Mの2つのコンポーネントで構成されている。 実験により、テキストトークンの数がビジョントークンの10倍以内であれば、モデルがデコード(OCR)精度を97%達成できることが示された。
    論文  参考訳(メタデータ)   (Tue, 21 Oct 2025 02:41:44 GMT)
  • ドキュメントの画像をコンテキストとした扱う構成のLLM、「In this technical report, we propose DeepSeek-OCR and preliminarily validate the feasibility of contexts optical compression through this model, demonstrating that the model can effectively decode text tokens exceeding 10 times the quantity from a small number of vision tokens. We believe this finding will facilitate the development of VLMs and LLMs in the future.」と効率的なよう。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-OCR: Contexts Optical Compression
  • olmOCR 2: Unit Test Rewards for Document OCR [29.5]
    olmOCR 2は、PDFのようなデジタル化された印刷文書を、クリーンで自然に順序付けられたプレーンテキストに変換する強力なOCRシステム群の最新版です。 olmOCR 2は、強化学習を用いて訓練された7B視覚言語モデル(VLM)であるolmOCR-2-7B-1025で駆動される。 これらのテストケースに対するRLトレーニングは、我々の英語OCRベンチマークであるolmOCR-Benchにおける最先端のパフォーマンスをもたらすことを示す。
    論文  参考訳(メタデータ)   (Wed, 22 Oct 2025 17:53:02 GMT)
  • こちらはOCR、olmOCRのバージョン2。「To scale unit test creation, we develop a pipeline for generating synthetic documents with diverse and challenging layouts, known ground-truth HTML source code, and extracted test cases.」と合成データを活用するアプローチ。
  • リポジトリはGitHub – allenai/olmocr: Toolkit for linearizing PDFs for LLM datasets/training

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning 

  • OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.6]
    テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。 その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
    論文  参考訳(メタデータ)   (Tue, 31 Dec 2024 07:32:35 GMT)
  • MLLMを対象としたOCRベンチマーク、「After carefully benchmarking state-of-the-art LMMs on OCRBench v2, we find that 36 out of 38 LMMs score below 50 (100 in total) and suffer from five-type limitations, including less frequently encountered text recognition, finegrained perception, layout perception, complex element parsing, and logical reasoning.」とのこと。
  • リポジトリはhttps://github.com/YuliangLiu/MultimodalOCR

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

  • CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
    CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
    論文  参考訳(メタデータ)   (Tue, 03 Dec 2024 07:03:25 GMT)
  • MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
  • リポジトリはhttps://github.com/QwenLM/CC-OCR

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Kosmos-2.5

  • Kosmos-2.5: A Multimodal Literate Model [143.5]
    Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。 テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
    論文  参考訳(メタデータ)   (Wed, 20 Sep 2023 15:50:08 GMT)
  • Kosmosの新バージョン。コア部分はencoder-only/encoder-decoder model から decoder-only modelへ移行しており生成系AIのようなアーキテクチャになっている。商用製品を上回る性能とのこと。
  • プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

Single-Point Scene Text Spotting 

  • SPTS v2: Single-Point Scene Text Spotting [147.0]
    トレーニングシーンのテキストスポッティングモデルは、非常に低コストの単一点アノテーションで実現できることを示す。 既存のベンチマークデータセットの実験では、SPTS v2が以前の最先端のシングルポイントテキストスポッターより優れていることが示されている。
    論文  参考訳(メタデータ)   (Wed, 4 Jan 2023 14:20:14 GMT)
  • 画像からのシーン理解(OCR)では通常バウンディングボックスを用いたアノテーションが行われるが、1点の情報(テキストスポッティング)で十分な性能が出せるとの指摘。アノテーションコストが劇的に下がる。
  • リポジトリはGitHub – shannanyinxiang/SPTS: Official implementation of SPTS: Single-Point Text Spotting

OCRデータは機械翻訳モデルの性能を向上させるか

  • OCR Improves Machine Translation for Low-Resource Languages [10.0]
    我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるOCR4MTを導入し,公開する。 我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。 次に,OCRエラーが機械翻訳性能に与える影響について検討する。
    論文  参考訳(メタデータ)   (Sun, 27 Feb 2022 02:36:45 GMT)
    •  OCRによって得られたモノリンガルデータは(リソースが少ない言語の)械翻訳モデルの性能向上に有効という論文。OCRエラーのタイプ別にも分析がされており、「replacement OCR error」が機械翻訳モデルに最もダメージを与えるとのこと。
    • 現時点ではデータ等はアップされていない。

TableParser: PDFや画像からの表構造解析

Donut: OCRを用いないドキュメント理解

  • Donut: Document Understanding Transformer without OCR [17.4]
    我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。 提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
    論文  参考訳(メタデータ)   (Tue, 30 Nov 2021 18:55:19 GMT)
    • OCRを用いないドキュメント理解手法の提案。レシート読み取りタスクにおいてend to endででOCR→BERTより大幅に優れているのは驚き。