Qianfan-OCR: A Unified End-to-End Model for Document Intelligence / Multimodal OCR: Parse Anything from Documents

  • Qianfan-OCR: A Unified End-to-End Model for Document Intelligence [41.7]
    Qianfan-OCRは、文書解析、レイアウト分析、文書理解を単一のアーキテクチャで統一する、エンドツーエンドのビジョン言語モデルである。 直接イメージ・ツー・マークダウン変換を実行し、テーブル抽出、チャート理解、文書QA、キー情報抽出など、さまざまなプロンプト駆動タスクをサポートする。 OmniDocBench v1.5 (93.12) と OlmOCR Bench (79.8) のエンド・ツー・エンドモデルの中では、OCRBench、CCOCR、DocVQA、ChartQAの競争成績を達成し、公開鍵情報抽出ベンチマークで最高スコアを獲得した。
    論文  参考訳(メタデータ)   (Wed, 11 Mar 2026 16:08:22 GMT)
  • 発表が続くOCRモデル。
  • リポジトリはGitHub – baidubce/Qianfan-VL: Qianfan-VL: Domain-Enhanced Universal Vision-Language Models · GitHub
  • Multimodal OCR: Parse Anything from Documents [72.2]
    dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。 テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。 不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
    論文  参考訳(メタデータ)   (Fri, 13 Mar 2026 14:42:21 GMT)
  • こちらはテキスト以外も分析対象とするOCR
  • リポジトリはGitHub – rednote-hilab/dots.mocr: Multimodal OCR: Parse Anything from Documents · GitHub

GLM-OCR Technical Report 

  • GLM-OCR Technical Report [65.4]
    GLM-OCRは実世界の文書理解のために設計された効率的なコンパクトモデルである。 CogViTビジュアルエンコーダとGLM言語デコーダを組み合わせることで、計算効率と認識性能のバランスが強い。 公開ベンチマークと産業シナリオの大規模な評価は、GLM-OCRが競争力や最先端のパフォーマンスを達成することを示している。
    論文  参考訳(メタデータ)   (Wed, 11 Mar 2026 15:55:47 GMT)
  • 比較的軽量ながら強力なGLM-OCRのテクニカルペーパー
  • リポジトリはGitHub – zai-org/GLM-OCR: GLM-OCR: Accurate × Fast × Comprehensive · GitHub

FireRed-OCR Technical Report 

  • FireRed-OCR Technical Report [30.0]
    本稿では,汎用VLMを専門家を解析するピクセル精度構造文書に変換するフレームワークFireRed-OCRを紹介する。 高品質な構造化データの不足に対処するため,Geometry + Semantics’s Data Factoryを構築した。 本稿では,画素レベルの認識から論理構造生成へモデルを導く三段階プログレッシブトレーニング戦略を提案する。
    論文  参考訳(メタデータ)   (Mon, 02 Mar 2026 13:19:23 GMT)
  • OCRの改善の発表が続く。本論文では「This curriculum includes: (1) Multi-task Pre-alignment to ground the model’s understanding of document structure; (2) Specialized SFT for standardizing full- image Markdown output; and (3) Format-Constrained Group Relative Policy Optimization (GRPO), which utilizes reinforcement learning to enforce strict syntactic validity and structural integrity (e g , table closure, formula syntax). 」というアプローチでMLLMを強化。
  • リポジトリはGitHub – FireRedTeam/FireRed-OCR · GitHub

PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing 

DeepSeek-OCR 2: Visual Causal Flow 

  • DeepSeek-OCR 2: Visual Causal Flow [15.6]
    本稿では,新しいエンコーダ-ディープエンコーダV2の実現可能性を検討するためにDeepSeek-OCR 2を提案する。 DeepEncoder V2は、エンコーダに因果推論機能を持たせるように設計されており、コンテンツ解釈の前に視覚トークンをインテリジェントに並べ替えることができる。 本研究は,2次元因果推論構造を用いて2次元画像理解を効果的に実現できるか否かという,新しいパラダイムを探求する。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 12:46:07 GMT)
  • DeepEncoder V2とDeepSeek-OCR 2の提案。強力な性能を達成。特にDeepEncode V2には「DeepEncoder V2, featuring several key innovations: (1) we replace the CLIP [37] component in DeepEncoder [54] with a compact LLM [48] architecture, as illustrated in Figure 1, to achieve visual causal flow; (2) to enable parallelized processing, we introduce learnable queries [10], termed causal flow tokens, with visual tokens prepended as a prefix—through a customized attention mask, visual tokens maintain global receptive fields, while causal flow tokens can obtain visual token reordering ability; (3) we maintain equal cardinality between causal and visual tokens (with redundancy such as padding and borders) to provide sufficient capacity for re-fixation; (4) only the causal flow tokens—the latter half of the encoder outputs—are fed to the LLM [24] decoder, enabling cascade causal-aware visual understanding.」とかなりの変更がなされている。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-OCR-2: Visual Causal Flow

MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns

  • MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.1]
    MonkeyOCR v1.5は、2段階の解析パイプラインを通じてレイアウト理解とコンテンツ認識の両方を強化する、統一されたビジョン言語フレームワークである。 複雑なテーブル構造に対処するために,レンダリング・アンド・コンペアアライメントによる認識品質の評価を行う視覚的一貫性に基づく強化学習手法を提案する。 組込み画像を含むテーブルの信頼性の高い解析と、ページや列を横断するテーブルの再構築を可能にするために、2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingが導入されている。
    論文  参考訳(メタデータ)   (Fri, 14 Nov 2025 01:48:44 GMT)
  • MonkeyOCRのアップデート、「Comprehensive experiments on OmniDocBench v1.5 demonstrate that MonkeyOCR v1.5 achieves state-of-the-art performance, outperforming PPOCR-VL and MinerU 2.5 while showing exceptional robustness in visually complex document scenarios.」とのこと。
  • リポジトリはGitHub – Yuliang-Liu/MonkeyOCR: A lightweight LMM-based Document Parsing Model

ChatGPT Atlas, Ring-1T, DeepSeek OCR, olmOCR 2

先週はChatGPT Atlas(ChatGPT Atlas)の話題が多かった。GUI Agent(より正確にはブラウザエージェント)のように人が操作しているようにUIを使うエージェントには期待大。

Ring-1TはAnt groupによるLRM、1TパラメータのMoE構成で性能も高い。

また、DeepSeek OCRもバズっていた。OCR性能というよりもコンテキストとして画像データを使う有効性が興味深い。OCRとしてはOlmoOCRのv2も出ていてOSSの動きも盛ん。

  • DeepSeek-OCR: Contexts Optical Compression [15.6]
    我々は,DeepSeek-OCRを,光学的2次元マッピングによる長期コンテキストの圧縮の実現可能性に関する最初の調査として紹介する。 DeepSeek-OCRはDeepEncoderとDeepSeek3B-MoE-A570Mの2つのコンポーネントで構成されている。 実験により、テキストトークンの数がビジョントークンの10倍以内であれば、モデルがデコード(OCR)精度を97%達成できることが示された。
    論文  参考訳(メタデータ)   (Tue, 21 Oct 2025 02:41:44 GMT)
  • ドキュメントの画像をコンテキストとした扱う構成のLLM、「In this technical report, we propose DeepSeek-OCR and preliminarily validate the feasibility of contexts optical compression through this model, demonstrating that the model can effectively decode text tokens exceeding 10 times the quantity from a small number of vision tokens. We believe this finding will facilitate the development of VLMs and LLMs in the future.」と効率的なよう。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-OCR: Contexts Optical Compression
  • olmOCR 2: Unit Test Rewards for Document OCR [29.5]
    olmOCR 2は、PDFのようなデジタル化された印刷文書を、クリーンで自然に順序付けられたプレーンテキストに変換する強力なOCRシステム群の最新版です。 olmOCR 2は、強化学習を用いて訓練された7B視覚言語モデル(VLM)であるolmOCR-2-7B-1025で駆動される。 これらのテストケースに対するRLトレーニングは、我々の英語OCRベンチマークであるolmOCR-Benchにおける最先端のパフォーマンスをもたらすことを示す。
    論文  参考訳(メタデータ)   (Wed, 22 Oct 2025 17:53:02 GMT)
  • こちらはOCR、olmOCRのバージョン2。「To scale unit test creation, we develop a pipeline for generating synthetic documents with diverse and challenging layouts, known ground-truth HTML source code, and extracted test cases.」と合成データを活用するアプローチ。
  • リポジトリはGitHub – allenai/olmocr: Toolkit for linearizing PDFs for LLM datasets/training

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning 

  • OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.6]
    テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。 その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
    論文  参考訳(メタデータ)   (Tue, 31 Dec 2024 07:32:35 GMT)
  • MLLMを対象としたOCRベンチマーク、「After carefully benchmarking state-of-the-art LMMs on OCRBench v2, we find that 36 out of 38 LMMs score below 50 (100 in total) and suffer from five-type limitations, including less frequently encountered text recognition, finegrained perception, layout perception, complex element parsing, and logical reasoning.」とのこと。
  • リポジトリはhttps://github.com/YuliangLiu/MultimodalOCR

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

  • CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
    CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
    論文  参考訳(メタデータ)   (Tue, 03 Dec 2024 07:03:25 GMT)
  • MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
  • リポジトリはhttps://github.com/QwenLM/CC-OCR

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model