Qianfan-OCR: A Unified End-to-End Model for Document Intelligence / Multimodal OCR: Parse Anything from Documents

  • Qianfan-OCR: A Unified End-to-End Model for Document Intelligence [41.7]
    Qianfan-OCRは、文書解析、レイアウト分析、文書理解を単一のアーキテクチャで統一する、エンドツーエンドのビジョン言語モデルである。 直接イメージ・ツー・マークダウン変換を実行し、テーブル抽出、チャート理解、文書QA、キー情報抽出など、さまざまなプロンプト駆動タスクをサポートする。 OmniDocBench v1.5 (93.12) と OlmOCR Bench (79.8) のエンド・ツー・エンドモデルの中では、OCRBench、CCOCR、DocVQA、ChartQAの競争成績を達成し、公開鍵情報抽出ベンチマークで最高スコアを獲得した。
    論文  参考訳(メタデータ)   (Wed, 11 Mar 2026 16:08:22 GMT)
  • 発表が続くOCRモデル。
  • リポジトリはGitHub – baidubce/Qianfan-VL: Qianfan-VL: Domain-Enhanced Universal Vision-Language Models · GitHub
  • Multimodal OCR: Parse Anything from Documents [72.2]
    dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。 テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。 不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
    論文  参考訳(メタデータ)   (Fri, 13 Mar 2026 14:42:21 GMT)
  • こちらはテキスト以外も分析対象とするOCR
  • リポジトリはGitHub – rednote-hilab/dots.mocr: Multimodal OCR: Parse Anything from Documents · GitHub

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です