2021年8月10日 – arXiv最新論文の紹介

Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents [2.6]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文参考訳（メタデータ） (Fri, 6 Aug 2021 00:32:54 GMT)
- OCRで作られたテキストに対するNLPは通常のテキストと異なる問題が多々ある。この論文ではNERを対象にOCRにありがちなエラーを再現するフレームワークを構築し、合成データを増やしてデータ不足に対応するアプローチを紹介している。
- リポジトリはhttps://github.com/microsoft/genalog

StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.5]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。本稿では,SrucTexTという統合フレームワークを提案する。セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文参考訳（メタデータ） (Fri, 6 Aug 2021 02:57:07 GMT)
- 構造化されたドキュメントの画像を理解するタスクは現実的に多いがOCRとは似て非なる難しさがある。通常entity labelingとentity linkingの2つのタスクに分解して解くとのことだが、この論文では2つを統一的に扱う構造を提案、SROIE: Scanned Receipts OCR and Information ExtractionやFUNSD: A Dataset for Form Understanding in Noisy Scanned Documentsなどで優れた性能を出したとのこと。

日: 2021年8月10日