- Docopilot: Improving Multimodal Models for Document-Level Understanding [87.6]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。 このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。 データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (Sat, 19 Jul 2025 16:03:34 GMT) - 大規模なマルチモーダルDocumentUnderstanding用データの構築とInternVL2ベースのモデル構築。「The proposed Docopilot-8B shows a notable improvement over baseline models [73], achieving a +19.9% accuracy gain compared to InternVL2-8B and surpassing InternVL2-26B with less than 31% of the inference latency. Additionally, Docopilot-2B uses fewer parameters (less than 10%) while exhibiting comparable performance to the 10× larger InternVL2-26B.」と性能向上。
- リポジトリはOpenGVLab/Docopilot: [CVPR 2025] Docopilot: Improving Multimodal Models for Document-Level Understanding
タグ: Document Understanding
A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends
- A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends [11.4]
Visually-Rich Document Understanding (VRDU)は、複雑なビジュアル、テキスト、レイアウト情報を含む文書を自動的に処理する必要があるため、重要な分野として登場した。 この調査はMLLMベースのVRDUの最近の進歩をレビューし、3つのコアコンポーネントを強調した。
論文 参考訳(メタデータ) (Mon, 14 Jul 2025 02:10:31 GMT) - 図やレイアウトの取り扱いを含むDocument Understandingのサーベイ
DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning
- DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning [39.1]
文書画像のセグメンテーションは、文書解析と認識に不可欠である。 既存のメソッドはこれらのタスクを別々に処理し、その結果、一般化とリソースの浪費が制限される。 本稿では,様々な文書画像セグメンテーションタスク用に設計されたトランスフォーマーベースの統合フレームワークであるDocSAMを紹介する。
論文 参考訳(メタデータ) (Sat, 05 Apr 2025 07:14:53 GMT) - MLLM全盛の現状でも重要なDocument image segmentationについて「DocSAM integrates layout analysis, multi-grained text segmentation, and table structure decomposition into a single model, reducing the need for specialized models and enhancing efficiency.」という手法の提案。
- リポジトリはGitHub – xhli-git/DocSAM
PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction
- PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction [4.2]
本稿では,文書フォーマットの異なる23種類のレイアウト領域の認識において,高い精度と効率を実現するPP-Docを提案する。 この研究は、文書レイアウト解析の最先端技術に加えて、高品質なトレーニングデータを構築するための堅牢なソリューションも提供する。
論文 参考訳(メタデータ) (Fri, 21 Mar 2025 15:20:47 GMT) - 「we present PPDocLayout, which achieves high precision and efficiency in recognizing 23 types of layout regions across diverse document formats.」と多様なデータに対応可能なレイアウト認識モデルの提案。
- リポジトリはPaddleX/README_en.md at release/3.0-rc · PaddlePaddle/PaddleX · GitHub
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding
- MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.5]
MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。 本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。 5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 06:57:21 GMT) - 非常に凝った構成のRAG(AgenticRAG)
- リポジトリはGitHub – aiming-lab/MDocAgent: MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding
QwQ-32B, Jamba 1.6, RWKV7 G1, Aya Vision, Mistral OCR, DeepSeek Open Source Week
先週も様々なニュースがあった。
QwQ-32BはDeepSeek-R1 (671B, Active 37B)と競合する性能を主張(QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen)、「This remarkable outcome underscores the effectiveness of RL when applied to robust foundation models pretrained on extensive world knowledge.」と強化学習の有効性を感じる。Model Context Protocol (MCP), QwQ, OLMo 2 – arXiv最新論文の紹介、QwQ: Reflect Deeply on the Boundaries of the Unknown | QwenのPreviewより大きく性能が上がっている。
Jamba 1.6はMistralやLlama、Cohereなど競合を超える性能を主張するLLM(Jamba 1.6: The Best Open Model for Enterprise Deployment | AI21)、SSM+Transformerのハイブリッドアーキテクチャであり高速とのこと(The Best Private LLM for Enterprise AI Deployment | AI21)。Jamba Mini 1.6 (12B active/52B total) and Jamba Large 1.6 (94B active/398B total) の2モデルがあり、リポジトリが公開されている(Jamba 1.6 – a ai21labs Collection)。
RWKVもReasoningモデルRWKV7-G1 “GooseOne”を出している(RWKV Language Model, BlinkDL/rwkv7-g1 · Hugging Face)現状ではモデルの規模が小さいが、より大規模なReasoningModelがRWKVのようなアーキテクチャでも有効かは注視したいところ。(状態空間モデルでLRM的構成が有効というのは直感に反するようなそうでもないようなもやもやがある。今後の発展がとても気になる。)
Cohereによるパラメータ効率が良いマルチモーダル・マルチリンガルモデルAYA Vision (Aya Vision: Expanding the worlds AI can see, C4AI Aya Vision – a CohereForAI Collection)の発表もありローカル・オンプレミス環境で動作する強力なLLM、MLLMも増えてきている。
Mistral OCRの発表はDocument Understanding関連として注目のニュース(Mistral OCR | Mistral AI)。olmOCR – Open-Source OCR for Accurate Document Conversionでも思ったがMLLM系のDocument Understandingも強力そう。
DeepSeekのOpen Source Weekではその名の通り多くのライブラリが公開された。インフラ周りのコードがとても興味深い。
- GitHub – deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation
- GitHub – deepseek-ai/FlashMLA: FlashMLA: Efficient MLA decoding kernels
- GitHub – deepseek-ai/DeepEP: DeepEP: an efficient expert-parallel communication library
- GitHub – deepseek-ai/DeepGEMM: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling
- GitHub – deepseek-ai/EPLB: Expert Parallelism Load Balancer
- GitHub – deepseek-ai/DualPipe: A bidirectional pipeline parallelism algorithm for computation-communication overlap in V3/R1 training.
- GitHub – deepseek-ai/profile-data: Analyze computation-communication overlap in V3/R1.
- GitHub – deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.
- GitHub – deepseek-ai/smallpond: A lightweight data processing framework built on DuckDB and 3FS.
- open-infra-index/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md at main · deepseek-ai/open-infra-index · GitHub
Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset
- Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset [52.3]
大規模言語モデル(LLM)は、テキストと表のデータを含むハイブリッドテキストを理解し解析することができる。 本研究では,LLMがHLD(Hybrid Long Document)を処理できるようにするための自動情報抽出フレームワーク(AIE)を提案し,HLDからの情報抽出の4つの重要な側面を分析する実験を行った。 HLDにおけるデータセット不足の問題に対処し、今後の作業を支援するために、金融レポート数値抽出(FINE)データセットを提案する。
論文 参考訳(メタデータ) (Sat, 28 Dec 2024 07:54:14 GMT) - Automated Information Extraction (AIE) frameworkの提案、「AIE comprises four modules: Segmentation, Retrieval, Summarization, and Extraction.」と割と一般的な構成に見える
- データセットは公開されていない?
LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating
- LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating [40.4]
大規模視覚言語モデル(LVLM)は文書理解能力を大幅に改善した。 既存の文書理解ベンチマークは少数のページしか処理できない。 半自動構築パイプラインを開発し,2,325の高品質な質問応答ペアを収集し,33,000ページ以上の文書を網羅する。
論文 参考訳(メタデータ) (Tue, 24 Dec 2024 13:39:32 GMT) - 文章理解ベンチマークの提案、非常に大規模なデータセット。分析が詳細に行われており、PymuPDFとDocMindの差も面白かった。GPT-4oにおいてはImage inputよりDocmindを通した方がスコアが高そう。
- リポジトリはGitHub – dengc2023/LongDocURL
DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding
- DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding [128.9]
大規模マルチモーダルモデル(LMM)を活用してエンドツーエンドの文書編集を行う新しいフレームワークDocEdit-v2を紹介する。 1) Doc2Commandは、興味のある編集領域(RoI)を同時にローカライズし、ユーザの編集要求を編集コマンドに曖昧にする; (2) LLMベースのコマンド改革により、元々はジェネラリストのLMMに適した編集命令に、特別なソフトウェア用に意図されたコマンドを調整して編集する; 3) DocEdit-v2は、GPT-4VやGeminiのような大規模マルチモーダルモデルを介してこれらの出力を処理し、文書レイアウトを解析し、編集を実行する。
論文 参考訳(メタデータ) (Mon, 21 Oct 2024 19:59:04 GMT) - MLLMを用いて文書をE2Eで編集する手法の提案。HTMLを修正する編集用コマンドを介するアプローチ。「(a) multimodal grounding and edit command generation via the Doc2Command, (b) Command Reformulation prompting to transform the edit command into LMM-specific prompt instruction, (c) prompting LMMs like GPT-4V and Gemini to facilitate nuanced and localized editing of the document’s HTML representation.」というフロー。(E2E・・・?)
DocLayout-YOLO
- DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception [16.3]
速度の優位性を保ちながら精度を向上させる新しいアプローチであるDoc-YOLOを導入する。 堅牢な文書事前学習には、Mesh-candidate BestFitアルゴリズムを導入する。 モデル最適化の観点からは,グローバルからローカライズ可能な受信モジュールを提案する。
論文 参考訳(メタデータ) (Wed, 16 Oct 2024 14:50:47 GMT) - 多様なレイアウトデータを合成する手法、Mesh-candidate BestFit methodologyの提案とそれを用いた高速高性能なDocLayout-YOLOの提案。
- リポジトリはGitHub – opendatalab/DocLayout-YOLO: DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception