Unifying Vision, Text, and Layout for Universal Document Processing

  • Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
    本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。 我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
    論文  参考訳(メタデータ)   (Mon, 5 Dec 2022 22:14:49 GMT)
  • 画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
  • リポジトリはmicrosoft/UDOP (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です