- MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing [117.6]
MinerU2.5は、例外的な計算効率を維持しつつ、最先端の認識精度を実現する文書解析モデルである。 提案手法では,局所的なコンテンツ認識からグローバルなレイアウト解析を分離する,粗大な2段階解析戦略を採用している。
論文 参考訳(メタデータ) (Mon, 29 Sep 2025 16:41:28 GMT) - MinerU: An Open-Source Solution for Precise Document Content Extraction – arXiv最新論文の紹介の最新バージョン、強力な1.2BのVLM。汎用的・商用API、特化型モデルを上回る性能。
- リポジトリはGitHub – opendatalab/MinerU: Transforms complex documents like PDFs into LLM-ready markdown/JSON for your Agentic workflows.、デモも存在するMinerU – a Hugging Face Space by opendatalab、高速で高性能。
タグ: Document Understanding
Hunyuan3D-Omni, Qwen3-Omni, LongCat-Flash-Thinking, EmbeddingGemma, Logics-Parsing
公開モデルの開発はとても盛んで、先週はQwen3 Omniが話題になることが多かったように思う。arXivではQwen3 Omini以外にも有望なモデルの発表が相次いでいる。
- Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets [34.7]
Hunyuan3D-Omniは、Hunyuan3D 2.1上に構築されたきめ細かい制御可能な3Dアセット生成のための統一されたフレームワークである。 我々のモデルは単一のクロスモーダルアーキテクチャで全ての信号を統一する。 実験により、これらの追加制御により生成精度が向上し、幾何認識変換が可能となり、生産の堅牢性も向上することが示された。
論文 参考訳(メタデータ) (Thu, 25 Sep 2025 14:39:17 GMT) - 3Dにフォーカスした実装
- リポジトリはGitHub – Tencent-Hunyuan/Hunyuan3D-Omni: Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
- Qwen3-Omni Technical Report [105.1]
Qwen3-Omniは、テキスト、画像、オーディオ、ビデオ間で最先端のパフォーマンスを維持する単一のマルチモーダルモデルである。 Qwen3-OmniはQwenシリーズ内の同一サイズのシングルモーダルモデルのパフォーマンスと一致し、特にオーディオタスクに優れる。 119言語でのテキストインタラクション、19言語での音声理解、および10言語での音声生成をサポートする。
論文 参考訳(メタデータ) (Mon, 22 Sep 2025 13:26:24 GMT) - Qwen系のマルチモーダルモデル
- リポジトリはGitHub – QwenLM/Qwen3-Omni: Qwen3-omni is a natively end-to-end, omni-modal LLM developed by the Qwen team at Alibaba Cloud, capable of understanding text, audio, images, and video, as well as generating speech in real time.
- LongCat-Flash-Thinking Technical Report [116.8]
LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。 高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。 LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Tue, 23 Sep 2025 10:25:48 GMT) - MoEなLRM、OSSなモデルでのSoTAを主張
- リポジトリはmeituan-longcat/LongCat-Flash-Thinking · Hugging Face
- EmbeddingGemma: Powerful and Lightweight Text Representations [42.4]
EmbeddingGemmaはGemma 3言語ファミリに基づいた、新しい軽量でオープンなテキスト埋め込みモデルである。 スプレッドアウト正規化器を用いてモデル頑健性と表現性を向上する。 さらなる研究を促進するため、コミュニティに EmbeddingGemma をリリースします。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 17:56:51 GMT) - 小規模、強力なEmbeddingモデル
- リポジトリはEmbeddingGemma – a google Collection
- Logics-Parsing Technical Report [9.0]
我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。 本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。 LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
論文 参考訳(メタデータ) (Wed, 24 Sep 2025 04:54:37 GMT) - Document Understandingに有効なLVLM
- リポジトリはGitHub – alibaba/Logics-Parsing
DocR1: Evidence Page-Guided GRPO for Multi-Page Document Understanding
- DocR1: Evidence Page-Guided GRPO for Multi-Page Document Understanding [97.4]
本稿では,新しいRLフレームワークであるEvidence Page-Guided GRPOで学習したMLLMであるDocR1を紹介する。 EviGRPOには、粗大な推論戦略を促進するエビデンス対応報酬機構が組み込まれている。 我々は,DocR1が複数ページのタスクに対して最先端のパフォーマンスを達成し,シングルページのベンチマークにおいて強い結果を維持していることを示す。
論文 参考訳(メタデータ) (Sun, 10 Aug 2025 12:03:45 GMT) - 多くのページがあるドキュメント読解のためのフレームワークの提案。
- 「When engaging in multi-page reading comprehension, humans typically begin by identifying the pages likely to contain the answer, and then focus on locating the specific regions that correspond to the question and answer within those pages. Inspired by this “coarse-to-fine” reading strategy, EviGRPO mimics the human approach by first selecting a small set of potentially relevant pages at a coarse level, followed by fine-grained reasoning over the selected content.」とのことだが、このようなドメイン(タスク)特化のアプローチはいまだ有効なんだろうか。。
Docopilot: Improving Multimodal Models for Document-Level Understanding
- Docopilot: Improving Multimodal Models for Document-Level Understanding [87.6]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。 このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。 データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (Sat, 19 Jul 2025 16:03:34 GMT) - 大規模なマルチモーダルDocumentUnderstanding用データの構築とInternVL2ベースのモデル構築。「The proposed Docopilot-8B shows a notable improvement over baseline models [73], achieving a +19.9% accuracy gain compared to InternVL2-8B and surpassing InternVL2-26B with less than 31% of the inference latency. Additionally, Docopilot-2B uses fewer parameters (less than 10%) while exhibiting comparable performance to the 10× larger InternVL2-26B.」と性能向上。
- リポジトリはOpenGVLab/Docopilot: [CVPR 2025] Docopilot: Improving Multimodal Models for Document-Level Understanding
A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends
- A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends [11.4]
Visually-Rich Document Understanding (VRDU)は、複雑なビジュアル、テキスト、レイアウト情報を含む文書を自動的に処理する必要があるため、重要な分野として登場した。 この調査はMLLMベースのVRDUの最近の進歩をレビューし、3つのコアコンポーネントを強調した。
論文 参考訳(メタデータ) (Mon, 14 Jul 2025 02:10:31 GMT) - 図やレイアウトの取り扱いを含むDocument Understandingのサーベイ
DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning
- DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning [39.1]
文書画像のセグメンテーションは、文書解析と認識に不可欠である。 既存のメソッドはこれらのタスクを別々に処理し、その結果、一般化とリソースの浪費が制限される。 本稿では,様々な文書画像セグメンテーションタスク用に設計されたトランスフォーマーベースの統合フレームワークであるDocSAMを紹介する。
論文 参考訳(メタデータ) (Sat, 05 Apr 2025 07:14:53 GMT) - MLLM全盛の現状でも重要なDocument image segmentationについて「DocSAM integrates layout analysis, multi-grained text segmentation, and table structure decomposition into a single model, reducing the need for specialized models and enhancing efficiency.」という手法の提案。
- リポジトリはGitHub – xhli-git/DocSAM
PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction
- PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction [4.2]
本稿では,文書フォーマットの異なる23種類のレイアウト領域の認識において,高い精度と効率を実現するPP-Docを提案する。 この研究は、文書レイアウト解析の最先端技術に加えて、高品質なトレーニングデータを構築するための堅牢なソリューションも提供する。
論文 参考訳(メタデータ) (Fri, 21 Mar 2025 15:20:47 GMT) - 「we present PPDocLayout, which achieves high precision and efficiency in recognizing 23 types of layout regions across diverse document formats.」と多様なデータに対応可能なレイアウト認識モデルの提案。
- リポジトリはPaddleX/README_en.md at release/3.0-rc · PaddlePaddle/PaddleX · GitHub
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding
- MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.5]
MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。 本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。 5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 06:57:21 GMT) - 非常に凝った構成のRAG(AgenticRAG)
- リポジトリはGitHub – aiming-lab/MDocAgent: MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding
QwQ-32B, Jamba 1.6, RWKV7 G1, Aya Vision, Mistral OCR, DeepSeek Open Source Week
先週も様々なニュースがあった。
QwQ-32BはDeepSeek-R1 (671B, Active 37B)と競合する性能を主張(QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen)、「This remarkable outcome underscores the effectiveness of RL when applied to robust foundation models pretrained on extensive world knowledge.」と強化学習の有効性を感じる。Model Context Protocol (MCP), QwQ, OLMo 2 – arXiv最新論文の紹介、QwQ: Reflect Deeply on the Boundaries of the Unknown | QwenのPreviewより大きく性能が上がっている。
Jamba 1.6はMistralやLlama、Cohereなど競合を超える性能を主張するLLM(Jamba 1.6: The Best Open Model for Enterprise Deployment | AI21)、SSM+Transformerのハイブリッドアーキテクチャであり高速とのこと(The Best Private LLM for Enterprise AI Deployment | AI21)。Jamba Mini 1.6 (12B active/52B total) and Jamba Large 1.6 (94B active/398B total) の2モデルがあり、リポジトリが公開されている(Jamba 1.6 – a ai21labs Collection)。
RWKVもReasoningモデルRWKV7-G1 “GooseOne”を出している(RWKV Language Model, BlinkDL/rwkv7-g1 · Hugging Face)現状ではモデルの規模が小さいが、より大規模なReasoningModelがRWKVのようなアーキテクチャでも有効かは注視したいところ。(状態空間モデルでLRM的構成が有効というのは直感に反するようなそうでもないようなもやもやがある。今後の発展がとても気になる。)
Cohereによるパラメータ効率が良いマルチモーダル・マルチリンガルモデルAYA Vision (Aya Vision: Expanding the worlds AI can see, C4AI Aya Vision – a CohereForAI Collection)の発表もありローカル・オンプレミス環境で動作する強力なLLM、MLLMも増えてきている。
Mistral OCRの発表はDocument Understanding関連として注目のニュース(Mistral OCR | Mistral AI)。olmOCR – Open-Source OCR for Accurate Document Conversionでも思ったがMLLM系のDocument Understandingも強力そう。
DeepSeekのOpen Source Weekではその名の通り多くのライブラリが公開された。インフラ周りのコードがとても興味深い。
- GitHub – deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation
- GitHub – deepseek-ai/FlashMLA: FlashMLA: Efficient MLA decoding kernels
- GitHub – deepseek-ai/DeepEP: DeepEP: an efficient expert-parallel communication library
- GitHub – deepseek-ai/DeepGEMM: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling
- GitHub – deepseek-ai/EPLB: Expert Parallelism Load Balancer
- GitHub – deepseek-ai/DualPipe: A bidirectional pipeline parallelism algorithm for computation-communication overlap in V3/R1 training.
- GitHub – deepseek-ai/profile-data: Analyze computation-communication overlap in V3/R1.
- GitHub – deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.
- GitHub – deepseek-ai/smallpond: A lightweight data processing framework built on DuckDB and 3FS.
- open-infra-index/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md at main · deepseek-ai/open-infra-index · GitHub
Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset
- Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset [52.3]
大規模言語モデル(LLM)は、テキストと表のデータを含むハイブリッドテキストを理解し解析することができる。 本研究では,LLMがHLD(Hybrid Long Document)を処理できるようにするための自動情報抽出フレームワーク(AIE)を提案し,HLDからの情報抽出の4つの重要な側面を分析する実験を行った。 HLDにおけるデータセット不足の問題に対処し、今後の作業を支援するために、金融レポート数値抽出(FINE)データセットを提案する。
論文 参考訳(メタデータ) (Sat, 28 Dec 2024 07:54:14 GMT) - Automated Information Extraction (AIE) frameworkの提案、「AIE comprises four modules: Segmentation, Retrieval, Summarization, and Extraction.」と割と一般的な構成に見える
- データセットは公開されていない?