Unifying Vision, Text, and Layout for Universal Document Processing

Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文参考訳（メタデータ） (Mon, 5 Dec 2022 22:14:49 GMT)
画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
リポジトリはmicrosoft/UDOP (github.com)

コメントを残す

コメントを残す コメントをキャンセル