マルチモーダル& Graph Attentionによる文書理解

  • Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
    GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。 テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 09:27:50 GMT)
    • ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です