- Qianfan-OCR: A Unified End-to-End Model for Document Intelligence [41.7]
Qianfan-OCRは、文書解析、レイアウト分析、文書理解を単一のアーキテクチャで統一する、エンドツーエンドのビジョン言語モデルである。 直接イメージ・ツー・マークダウン変換を実行し、テーブル抽出、チャート理解、文書QA、キー情報抽出など、さまざまなプロンプト駆動タスクをサポートする。 OmniDocBench v1.5 (93.12) と OlmOCR Bench (79.8) のエンド・ツー・エンドモデルの中では、OCRBench、CCOCR、DocVQA、ChartQAの競争成績を達成し、公開鍵情報抽出ベンチマークで最高スコアを獲得した。
論文 参考訳(メタデータ) (Wed, 11 Mar 2026 16:08:22 GMT) - 発表が続くOCRモデル。
- リポジトリはGitHub – baidubce/Qianfan-VL: Qianfan-VL: Domain-Enhanced Universal Vision-Language Models · GitHub
- Multimodal OCR: Parse Anything from Documents [72.2]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。 テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。 不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文 参考訳(メタデータ) (Fri, 13 Mar 2026 14:42:21 GMT) - こちらはテキスト以外も分析対象とするOCR
- リポジトリはGitHub – rednote-hilab/dots.mocr: Multimodal OCR: Parse Anything from Documents · GitHub