Unifying Vision, Text, and Layout for Universal Document Processing

  • Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
    本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。 我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
    論文  参考訳(メタデータ)   (Mon, 5 Dec 2022 22:14:49 GMT)
  • 画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
  • リポジトリはmicrosoft/UDOP (github.com)

ERNIE-Layout

  • ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.4]
    レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。 まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。 実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
    論文  参考訳(メタデータ)   (Wed, 12 Oct 2022 12:59:24 GMT)

XDoc: Unified Pre-training for Cross-Format Document Understanding

  • XDoc: Unified Pre-training for Cross-Format Document Understanding [84.6]
    XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。 XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Thu, 6 Oct 2022 12:07:18 GMT)
    • ドキュメント理解のため異なる文書フォーマットを単一のモデルで扱う統一事前学習モデルXdocを提案。
      • 省パラメータで様々な文章形式に対応できるのはありがたいが、(当たり前かもだが?)現時点ではそれぞれのSoTAには及んでいないよう。
    • リポジトリはunilm/xdoc at master · microsoft/unilm (github.com)

LayoutLMv3

  • LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking [83.1]
    テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。 単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
    論文  参考訳(メタデータ)   (Mon, 18 Apr 2022 16:19:52 GMT)
    • マルチモーダル性を利用したLayoutLMのバージョン3。pre trainedなCNNやR-CNNバックボーンに依存していないというのにやや驚き。FUNSDでSoTAなどv2に比べて性能が向上している。
    • リポジトリはunilm/layoutlmv3 at master · microsoft/unilm · GitHub

マルチモーダル& Graph Attentionによる文書理解

  • Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
    GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。 テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 09:27:50 GMT)
    • ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。

DiT(Document Image Transformer): Transformer + MIMな事前学習による文書構造認識

  • DiT: Self-supervised Pre-training for Document Image Transformer [85.8]
    自己教師付き文書画像変換モデルであるDiTを提案する。 さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。 実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
    論文  参考訳(メタデータ)   (Fri, 4 Mar 2022 15:34:46 GMT)
    • Masked Image Modelingな大規模事前学習を行いDocument Image Transformerを構築、document image classification、document layout analysis、 table detectionでSoTAとのこと。OCRの前処理などに重要であり、モデルが公開されているのがありがたい。

Donut: OCRを用いないドキュメント理解

  • Donut: Document Understanding Transformer without OCR [17.4]
    我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。 提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
    論文  参考訳(メタデータ)   (Tue, 30 Nov 2021 18:55:19 GMT)
    • OCRを用いないドキュメント理解手法の提案。レシート読み取りタスクにおいてend to endででOCR→BERTより大幅に優れているのは驚き。