OCRで作成されたテキストに対するNLP

  • Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents [2.6]
    我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。 まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。 コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
    論文  参考訳(メタデータ)   (Fri, 6 Aug 2021 00:32:54 GMT)
    • OCRで作られたテキストに対するNLPは通常のテキストと異なる問題が多々ある。この論文ではNERを対象にOCRにありがちなエラーを再現するフレームワークを構築し、合成データを増やしてデータ不足に対応するアプローチを紹介している。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です