Qianfan-OCR: A Unified End-to-End Model for Document Intelligence / Multimodal OCR: Parse Anything from Documents

  • Qianfan-OCR: A Unified End-to-End Model for Document Intelligence [41.7]
    Qianfan-OCRは、文書解析、レイアウト分析、文書理解を単一のアーキテクチャで統一する、エンドツーエンドのビジョン言語モデルである。 直接イメージ・ツー・マークダウン変換を実行し、テーブル抽出、チャート理解、文書QA、キー情報抽出など、さまざまなプロンプト駆動タスクをサポートする。 OmniDocBench v1.5 (93.12) と OlmOCR Bench (79.8) のエンド・ツー・エンドモデルの中では、OCRBench、CCOCR、DocVQA、ChartQAの競争成績を達成し、公開鍵情報抽出ベンチマークで最高スコアを獲得した。
    論文  参考訳(メタデータ)   (Wed, 11 Mar 2026 16:08:22 GMT)
  • 発表が続くOCRモデル。
  • リポジトリはGitHub – baidubce/Qianfan-VL: Qianfan-VL: Domain-Enhanced Universal Vision-Language Models · GitHub
  • Multimodal OCR: Parse Anything from Documents [72.2]
    dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。 テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。 不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
    論文  参考訳(メタデータ)   (Fri, 13 Mar 2026 14:42:21 GMT)
  • こちらはテキスト以外も分析対象とするOCR
  • リポジトリはGitHub – rednote-hilab/dots.mocr: Multimodal OCR: Parse Anything from Documents · GitHub

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding 

  • Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding [96.8]
    本稿では,最上位のMLLMが個別の意味空間をどのようにナビゲートするかを評価するためのベンチマークを紹介する。 モデルは基本的なシンボル認識に失敗することが多いが、複雑な推論タスクに成功している。 この作業は、より厳格で人間指向のインテリジェントなシステムを開発するためのロードマップを提供する。
    論文  参考訳(メタデータ)   (Thu, 19 Mar 2026 04:08:20 GMT)
  • 「despite impressive reasoning capabilities, current models frequently fail at foundational visual symbol grounding, relying instead on linguistic priors, procedural imitation, or memorized patterns. Our findings challenge a prevailing assumption in multimodal intelligence that visual recognition is inherently simpler than reasoning. Instead, we observe a consistent recognition-reasoning inversion phenomenon, where higher-level reasoning performance often masks deficiencies in low-level symbolic perception. This phenomenon underscores a key limitation of existing training paradigms: while models excel at leveraging large-scale continual natural images, they struggle to construct stable, compositional visual representations of abstract, discrete symbols.」という面白い指摘。