Pixels, Patterns, but No Poetry: To See The World like Humans 

  • Pixels, Patterns, but No Poetry: To See The World like Humans [33.8]
    最先端のMLLMは、人間にとって簡単な私たちの知覚上のタスクに破滅的な失敗を示します。 この論文は、推論から知覚へと焦点を移す。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 21:50:16 GMT)
  • 人間だと直感的に理解可能な Turing Eye Test (TET)の提案。「Through four diagnostic tasks involving concealed text, 3D Captchas, Chinese character compositions, and color blind test charts, we demonstrated that state-of-the-art MLLMs exhibit catastrophic failures on perceptual tasks that humans solve intuitively.」とAIにはとけないものが多い。創作漢字コンテストの漢字を理解できるか興味深いところ(leakが怖いが…)。
  • プロジェクトサイトはPixels, Patterns, but no Poetry: To See the World like Humans

Diffusion Beats Autoregressive in Data-Constrained Settings 

  • Diffusion Beats Autoregressive in Data-Constrained Settings [46.1]
    自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。 近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 17:59:57 GMT)
  • 「In this paper, we systematically study masked diffusion models in data-constrained settings—where training involves repeated passes over limited data—and find that they significantly outperform AR models when compute is abundant but data is scarce. Diffusion models make better use of repeated data, achieving lower validation loss and superior down- stream performance.」という指摘。直観的にもそうだろうと思う。
  • リポジトリはDiffusion Beats Autoregressive in Data-Constrained Settings

Docopilot: Improving Multimodal Models for Document-Level Understanding 

  • Docopilot: Improving Multimodal Models for Document-Level Understanding [87.6]
    マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。 このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。 データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
    論文  参考訳(メタデータ)   (Sat, 19 Jul 2025 16:03:34 GMT)
  • 大規模なマルチモーダルDocumentUnderstanding用データの構築とInternVL2ベースのモデル構築。「The proposed Docopilot-8B shows a notable improvement over baseline models [73], achieving a +19.9% accuracy gain compared to InternVL2-8B and surpassing InternVL2-26B with less than 31% of the inference latency. Additionally, Docopilot-2B uses fewer parameters (less than 10%) while exhibiting comparable performance to the 10× larger InternVL2-26B.」と性能向上。
  • リポジトリはOpenGVLab/Docopilot: [CVPR 2025] Docopilot: Improving Multimodal Models for Document-Level Understanding

A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends

  • A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends [11.4]
    Visually-Rich Document Understanding (VRDU)は、複雑なビジュアル、テキスト、レイアウト情報を含む文書を自動的に処理する必要があるため、重要な分野として登場した。 この調査はMLLMベースのVRDUの最近の進歩をレビューし、3つのコアコンポーネントを強調した。
    論文  参考訳(メタデータ)   (Mon, 14 Jul 2025 02:10:31 GMT)
  • 図やレイアウトの取り扱いを含むDocument Understandingのサーベイ