CoVA(Context-aware Visual Attention): DOMを使わないWEBページからの情報抽出

  • CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.1]
    WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。 我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。 提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
    論文  参考訳(メタデータ)   (Sun, 24 Oct 2021 00:21:46 GMT)
    • WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ(のスクリーンショット)にアノテーションを行いモデル構築を実施。データセットも公開されている。
      • 人間的というか力業的というか悩ましいが、性能向上効果があるのであれば汎用的なアプローチであると思う。

TrOCR: TransformerによるOCR

  • TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models [47.5]
    本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。 TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。 実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 16:01:56 GMT)
    • CNN+RNNで構成されることの多いOCRをTransformerを用いて改善。事前学習済み画像用Transfomerと事前学習済みテキスト用Transformerの構成。後処理なしでsotaを達成とのこと。
      • SROIE task2ではsotaではなさそうだが相当高精度であることは確か。
    • リポジトリはhttps://github.com/microsoft/unilm/tree/master/trocrとのことだが現時点ではまだアップロードされていない。

ReadingBankとLayoutReader: 読む順番を検出するためのデータセットとモデル

  • LayoutReader: Pre-training of Text and Layout for Reading Order Detection [46.8]
    ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。 この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
    論文  参考訳(メタデータ)   (Thu, 26 Aug 2021 05:52:32 GMT)
    • 現実的なデータに対してOCRを行うときに問題となる読み取り順の検出に関する報告。読み出し順序、テキスト、レイアウト情報からなる50万ページ分のベンチマークデータセット「ReadingBank」を構築、テキスト情報をレイアウト情報を併用するアプローチ(LayoutReader)でヒューリスティックな方法を大きく上回る性能を出したとのこと。
    • ReadingBankデータセットとLayoutReaderモデルはhttps://github.com/doc-analysis/ReadingBankで公開予定とのこと。
      • FuguMTでも読み取り順抽出を間違うことが多く応用可能か試してみたい。

OCRで作成されたテキストに対するNLP

  • Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents [2.6]
    我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。 まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。 コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
    論文  参考訳(メタデータ)   (Fri, 6 Aug 2021 00:32:54 GMT)
    • OCRで作られたテキストに対するNLPは通常のテキストと異なる問題が多々ある。この論文ではNERを対象にOCRにありがちなエラーを再現するフレームワークを構築し、合成データを増やしてデータ不足に対応するアプローチを紹介している。