Document Understanding – ページ 3 – arXiv最新論文の紹介

DocPedia

DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [98.4]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文参考訳（メタデータ） (Mon, 20 Nov 2023 14:42:25 GMT)
「 DocPedia directly processes visual input in the frequency domain rather than the pixel space.」というのが特徴的な文章理解モデル。DCT → Frequency Adapter　→ …と興味深いブロック図になっている。。。
LLaVARやmPLUG-Owlに比べて性能は高いがsupervisedなSOTAとは距離がある。

DocXChain

DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond [17.9]
DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 02:49:09 GMT)
Apache License, Version 2.0と使いやすいドキュメント解析ソフトウェア、LLMに投入するための前処理などで重要
リポジトリはAdvancedLiterateMachinery/Applications/DocXChain at main · AlibabaResearch/AdvancedLiterateMachinery · GitHub

Kosmos-2.5

Kosmos-2.5: A Multimodal Literate Model [143.5]
Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
論文参考訳（メタデータ） (Wed, 20 Sep 2023 15:50:08 GMT)
Kosmosの新バージョン。コア部分はencoder-only/encoder-decoder model から decoder-only modelへ移行しており生成系AIのようなアーキテクチャになっている。商用製品を上回る性能とのこと。
プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

PDFTriage

PDFTriage: Question Answering over Long, Structured Documents [64.6]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。本実験は,既存の検索拡張LPMが失敗する問題に対して,提案したPDFTriage-augmentedモデルの有効性を実証するものである。
論文参考訳（メタデータ） (Sat, 16 Sep 2023 04:29:05 GMT)
構造化文書へについて分析し、PDFTriage（Generate document metadata → LLM-based triage → Answer using retrieved content）を提案、効果を確認。2 step目がfetch_pages, fetch_sections, fetch_table, fetch_figure, retrieveをAPI経由で呼び出す設計になっているのが面白い。
「We identify a gap in question answering over structured documents with current LLM approaches, namely treating documents as plain text rather than structured objects;」はまさにその通りだと思う。PDF Triageのような手法ではなくRAGに近年のDocument understanding関連の成果を取り込むような方向性もあると思うが、早めに進化してほしいところ。

Document Understanding関連でもLLMの活用が進む

LMDX: Language Model-based Document Information Extraction and Localization [15.7]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした本稿では,文書情報の抽出に任意の LLM を適用する手法である LMDX を紹介する。
論文参考訳（メタデータ） (Tue, 19 Sep 2023 22:32:56 GMT)
LLMを用いた文書からの情報抽出（OCRが起点）、LayoutLMv3を超えているのが凄い。

DLUE: Document Language Understanding Evaluation

DLUE: Benchmarking Document Language Understanding [32.6]
文書理解能力を包括的に評価する方法については、確固たるコンセンサスはない。本稿では,文書分類,文書構造解析,文書情報抽出,文書書き起こしの4つの代表的能力について要約する。新しい評価フレームワークでは、新しいタスクスイートである DLUE の Document Language Understanding Evaluation を提案する。
論文参考訳（メタデータ） (Tue, 16 May 2023 15:16:24 GMT)
文書読解タスクのベンチマーク。document classiﬁcation、document structure analysis、document information extraction、document transcriptionが対象。
プロジェクトサイトはDLUE – Coming Soon (dluebenchmark.com)

Doc2SoarGraph

Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs [73.3]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文参考訳（メタデータ） (Thu, 4 May 2023 10:02:39 GMT)
報告書のようなドキュメントに対するテーブルを含むQA、いろいろ盛り込まれているものの実務的にはよくある問題。階層型のグラフ構造を用いており凄いパイプライン構成。

Multimodal Tree Decoder for Table of Contents Extraction in Document Images

Multimodal Tree Decoder for Table of Contents Extraction in Document Images [32.5]
テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
論文参考訳（メタデータ） (Tue, 6 Dec 2022 11:38:31 GMT)
Table of Contentsの自動生成モデルの開発。ベンチマーク用のデータセット作成も行っており、かつ、マルチモーダル。画像からの情報が多いというのは直感に反していない。
リポジトリはとのことだが、https://github.com/Pengfei-Hu/MTDまだ404

Unifying Vision, Text, and Layout for Universal Document Processing

Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文参考訳（メタデータ） (Mon, 5 Dec 2022 22:14:49 GMT)
画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
リポジトリはmicrosoft/UDOP (github.com)

ERNIE-Layout

ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.4]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文参考訳（メタデータ） (Wed, 12 Oct 2022 12:59:24 GMT)
- ERNIEシリーズのDocument Understanding、画像に関する特徴も処理しDocFormerやLayoutLMv2を超える優れた性能を実現している。
- デモはERNIE-Layout – a Hugging Face Space by PaddlePaddleと思われる

XDoc: Unified Pre-training for Cross-Format Document Understanding

XDoc: Unified Pre-training for Cross-Format Document Understanding [84.6]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。 XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 12:07:18 GMT)
- ドキュメント理解のため異なる文書フォーマットを単一のモデルで扱う統一事前学習モデルXdocを提案。
  - 省パラメータで様々な文章形式に対応できるのはありがたいが、（当たり前かもだが？）現時点ではそれぞれのSoTAには及んでいないよう。
- リポジトリはunilm/xdoc at master · microsoft/unilm (github.com)

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31