Qianfan-OCR: A Unified End-to-End Model for Document Intelligence / Multimodal OCR: Parse Anything from Documents

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence [41.7]
Qianfan-OCRは、文書解析、レイアウト分析、文書理解を単一のアーキテクチャで統一する、エンドツーエンドのビジョン言語モデルである。直接イメージ・ツー・マークダウン変換を実行し、テーブル抽出、チャート理解、文書QA、キー情報抽出など、さまざまなプロンプト駆動タスクをサポートする。 OmniDocBench v1.5 (93.12) と OlmOCR Bench (79.8) のエンド・ツー・エンドモデルの中では、OCRBench、CCOCR、DocVQA、ChartQAの競争成績を達成し、公開鍵情報抽出ベンチマークで最高スコアを獲得した。
論文参考訳（メタデータ） (Wed, 11 Mar 2026 16:08:22 GMT)
発表が続くOCRモデル。
リポジトリはGitHub – baidubce/Qianfan-VL: Qianfan-VL: Domain-Enhanced Universal Vision-Language Models · GitHub

Multimodal OCR: Parse Anything from Documents [72.2]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文参考訳（メタデータ） (Fri, 13 Mar 2026 14:42:21 GMT)
こちらはテキスト以外も分析対象とするOCR
リポジトリはGitHub – rednote-hilab/dots.mocr: Multimodal OCR: Parse Anything from Documents · GitHub

コメントを残す

コメントを残す コメントをキャンセル