コンテンツへスキップ
- Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents [2.6]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。 まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。 コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (Fri, 6 Aug 2021 00:32:54 GMT)- OCRで作られたテキストに対するNLPは通常のテキストと異なる問題が多々ある。この論文ではNERを対象にOCRにありがちなエラーを再現するフレームワークを構築し、合成データを増やしてデータ不足に対応するアプローチを紹介している。
- StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.5]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。 本稿では,SrucTexTという統合フレームワークを提案する。 セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文 参考訳(メタデータ) (Fri, 6 Aug 2021 02:57:07 GMT)