Document Understanding – ページ 2 – arXiv最新論文の紹介

MinerU: An Open-Source Solution for Precise Document Content Extraction

MinerU: An Open-Source Solution for Precise Document Content Extraction [63.0]
MinerUは、高精度な文書コンテンツ抽出のためのオープンソースのソリューションである。我々は、MinerUが、様々なドキュメントタイプで一貫してハイパフォーマンスを実現していることを示す。
論文参考訳（メタデータ） (Fri, 27 Sep 2024 15:35:15 GMT)
強力なコンテンツ抽出フレームワークの提案。パイプライン構成及び構成要素のチューニングなども参考になる。「Additionally, we will introduce new models, such as table recognition and reading order, to enhance MinerU’s overall capabilities.」とある通り、順番認識は意外と難しい。ちょうど下記「Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding」論文が出ていた。
リポジトリはGitHub – opendatalab/MinerU: A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具，支持PDF/网页/多格式电子书提取。

Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding [34.0]
本稿では,レイアウト要素の集合上の順序関係としてレイアウト読み込み順序をモデル化する。レイアウト読み出し順序の改善型の導入による実用的利点を強調するため, 読み出し順序対応型パイプラインを提案する。
論文参考訳（メタデータ） (Sun, 29 Sep 2024 12:00:57 GMT)
リポジトリは　https://github.com/chongzhangFDU/ROOR とのことだが現時点では４０４

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.1]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文参考訳（メタデータ） (Thu, 05 Sep 2024 11:09:00 GMT)
「Multimodel Large Language Models(MLLMs) have achieved promising OCRfree Document Understanding performance by increasing the supported resolution of document images.」から始まる論文で、High-resolution DocCompressorモジュールによって処理を簡略化・高速化とのこと。最初の主張には同意できる部分とできない部分があるが、Document UnderstandingタスクにおいてMLLMが強力なのは確か。
リポジトリはGitHub – X-PLUG/mPLUG-DocOwl: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.2]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 13:17:42 GMT)
「PDFと質問を受け取り回答を返す」というベンチマーク。LLMの応用として一般的なタスク。
リポジトリはGitHub – Anni-Zou/DocBench: DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems

Large Language Models Understand Layouts

Large Language Models Understand Layouts [6.7]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文参考訳（メタデータ） (Mon, 08 Jul 2024 09:03:12 GMT)
LLM のテキストレイアウト理解能力を解析、かなりの能力があることを示した論文。本来、Document Understandingが必要な問題をシンプルにテキスト表現に落とし込んで解けると面白い。
リポジトリはGitHub – liweim/TextLayoutLLM

OmniParser

OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.9]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文参考訳（メタデータ） (Thu, 28 Mar 2024 03:51:14 GMT)
visually-situated text parsing（text spotting, key information extraction, table recognition）のためのフレームワークを提案。Document Understandingの上でとても重要。2 stageの特化型の構成でMLLMでの解決ではない。
コード等はAlibabaResearch/AdvancedLiterateMachinery: A collection of original, innovative ideas and algorithms towards Advanced Literate Machinery. This project is maintained by the OCR Team in the Language Technology Lab, Alibaba DAMO Academy. (github.com)で公開予定とのこと。

ChartThinker

ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization [32.2]
本研究は,各チャートに包括的チャートキャプチャペアと微調整命令の大規模データセットを構築した。本稿では,思考の連鎖に基づいて深い分析を合成する,革新的なチャート要約手法であるChartThinkerを提案する。キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、常に優れたパフォーマンスを示します。
論文参考訳（メタデータ） (Sun, 17 Mar 2024 14:49:09 GMT)
チャート要約データセットChart-Sum-QAとチャート要約のモデルChartThinkerの提案。OCR併用の方が性能が高いのが気になるのと、GPT-4Vのような最新モデルを使った場合の結果が知りたいところ。
リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

Document Structure in Long Document Transformers

Document Structure in Long Document Transformers [64.8]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか? 事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文参考訳（メタデータ） (Wed, 31 Jan 2024 08:28:06 GMT)
文書構造がモデルで扱われるか及び構造をモデルに入れ込む手法提案。「Results on LED and LongT5 suggest that they acquire implicit understanding of document structure during pretraining, which can be further enhanced by structure infusion, leading to improved endtask performance.」と肯定的な見解
リポジトリはhttps://github.com/UKPLab/eacl2024-doc-structureとのこと（現在は404）

DocLLM

DocLLM: A layout-aware generative language model for multimodal document understanding [12.1]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文参考訳（メタデータ） (Sun, 31 Dec 2023 22:37:52 GMT)
bounding boxの情報を組み込んだLLM、画像への拡張よりも効率的とのこと。実装上有用なアプローチに思える。著者がJPMorgan AI Researchというのも興味深い。
「DocLLM is a multi-modal system that integrates lightweight visual information by utilizing the spatial positions and dimensions of text tokens obtained using OCR.」ということでbounding boxはOCRから得るのが前提ではあるが、テキストやブロック構造が得られる電子ファイルが使える場合はさらによく動きそう（非現実的な仮定でもない）。

mPLUG-PaperOwl

mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model [73.4]
本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。 M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
論文参考訳（メタデータ） (Thu, 30 Nov 2023 04:43:26 GMT)
学術論文の図表を含むドキュメントを読解するためのデータ・モデルの提案、latexが取れるというのも大きいのだろうけど、分野特化は非常に有効に見える
リポジトリはmPLUG-DocOwl/PaperOwl at main · X-PLUG/mPLUG-DocOwl · GitHub

TGDoc

Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.5]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文参考訳（メタデータ） (Wed, 22 Nov 2023 06:46:37 GMT)
Vicuna-7Bを拡張する形式のMLLM、データを自前で集めている点はすごい、こちらLLaVARを上回る性能。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31