StrucTexT:マルチモーダルな構造化テキスト理解

  • StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.5]
    Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。 本稿では,SrucTexTという統合フレームワークを提案する。 セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Fri, 6 Aug 2021 02:57:07 GMT)
    • 構造化されたドキュメントの画像を理解するタスクは現実的に多いがOCRとは似て非なる難しさがある。通常entity labelingとentity linkingの2つのタスクに分解して解くとのことだが、この論文では2つを統一的に扱う構造を提案、SROIE: Scanned Receipts OCR and Information ExtractionやFUNSD: A Dataset for Form Understanding in Noisy Scanned Documentsなどで優れた性能を出したとのこと。