DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding 

  • DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding [128.9]
    大規模マルチモーダルモデル(LMM)を活用してエンドツーエンドの文書編集を行う新しいフレームワークDocEdit-v2を紹介する。 1) Doc2Commandは、興味のある編集領域(RoI)を同時にローカライズし、ユーザの編集要求を編集コマンドに曖昧にする; (2) LLMベースのコマンド改革により、元々はジェネラリストのLMMに適した編集命令に、特別なソフトウェア用に意図されたコマンドを調整して編集する; 3) DocEdit-v2は、GPT-4VやGeminiのような大規模マルチモーダルモデルを介してこれらの出力を処理し、文書レイアウトを解析し、編集を実行する。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 19:59:04 GMT)
  • MLLMを用いて文書をE2Eで編集する手法の提案。HTMLを修正する編集用コマンドを介するアプローチ。「(a) multimodal grounding and edit command generation via the Doc2Command, (b) Command Reformulation prompting to transform the edit command into LMM-specific prompt instruction, (c) prompting LMMs like GPT-4V and Gemini to facilitate nuanced and localized editing of the document’s HTML representation.」というフロー。(E2E・・・?)

DocLayout-YOLO

MinerU: An Open-Source Solution for Precise Document Content Extraction 

  • Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding [34.0]
    本稿では,レイアウト要素の集合上の順序関係としてレイアウト読み込み順序をモデル化する。 レイアウト読み出し順序の改善型の導入による実用的利点を強調するため, 読み出し順序対応型パイプラインを提案する。
    論文  参考訳(メタデータ)   (Sun, 29 Sep 2024 12:00:57 GMT)
  • リポジトリは https://github.com/chongzhangFDU/ROOR とのことだが現時点では404

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

  • mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.1]
    本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。 同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
    論文  参考訳(メタデータ)   (Thu, 05 Sep 2024 11:09:00 GMT)
  • 「Multimodel Large Language Models(MLLMs) have achieved promising OCRfree Document Understanding performance by increasing the supported resolution of document images.」から始まる論文で、High-resolution DocCompressorモジュールによって処理を簡略化・高速化とのこと。最初の主張には同意できる部分とできない部分があるが、Document UnderstandingタスクにおいてMLLMが強力なのは確か。
  • リポジトリはGitHub – X-PLUG/mPLUG-DocOwl: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

  • DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.2]
    本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。 我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。 実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 13:17:42 GMT)
  • 「PDFと質問を受け取り回答を返す」というベンチマーク。LLMの応用として一般的なタスク。
  • リポジトリはGitHub – Anni-Zou/DocBench: DocBench: A Benchmark for Evaluating LLM-based Document Reading Systems

Large Language Models Understand Layouts

  • Large Language Models Understand Layouts [6.7]
    大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。 テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。 レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 09:03:12 GMT)
  • LLM のテキストレイアウト理解能力を解析、かなりの能力があることを示した論文。本来、Document Understandingが必要な問題をシンプルにテキスト表現に落とし込んで解けると面白い。
  • リポジトリはGitHub – liweim/TextLayoutLLM

OmniParser

ChartThinker

  • ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization [32.2]
    本研究は,各チャートに包括的チャートキャプチャペアと微調整命令の大規模データセットを構築した。 本稿では,思考の連鎖に基づいて深い分析を合成する,革新的なチャート要約手法であるChartThinkerを提案する。 キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、常に優れたパフォーマンスを示します。
    論文  参考訳(メタデータ)   (Sun, 17 Mar 2024 14:49:09 GMT)
  • チャート要約データセットChart-Sum-QAとチャート要約のモデルChartThinkerの提案。OCR併用の方が性能が高いのが気になるのと、GPT-4Vのような最新モデルを使った場合の結果が知りたいところ。
  • リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

Document Structure in Long Document Transformers

  • Document Structure in Long Document Transformers [64.8]
    長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。 文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。 長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか? 事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
    論文  参考訳(メタデータ)   (Wed, 31 Jan 2024 08:28:06 GMT)
  • 文書構造がモデルで扱われるか及び構造をモデルに入れ込む手法提案。「Results on LED and LongT5 suggest that they acquire implicit understanding of document structure during pretraining, which can be further enhanced by structure infusion, leading to improved endtask performance.」と肯定的な見解
  • リポジトリはhttps://github.com/UKPLab/eacl2024-doc-structureとのこと(現在は404)

DocLLM

  • DocLLM: A layout-aware generative language model for multimodal document understanding [12.1]
    本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。 本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。 我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
    論文  参考訳(メタデータ)   (Sun, 31 Dec 2023 22:37:52 GMT)
  • bounding boxの情報を組み込んだLLM、画像への拡張よりも効率的とのこと。実装上有用なアプローチに思える。著者がJPMorgan AI Researchというのも興味深い。
  • 「DocLLM is a multi-modal system that integrates lightweight visual information by utilizing the spatial positions and dimensions of text tokens obtained using OCR.」ということでbounding boxはOCRから得るのが前提ではあるが、テキストやブロック構造が得られる電子ファイルが使える場合はさらによく動きそう(非現実的な仮定でもない)。