ReadingBankとLayoutReader: 読む順番を検出するためのデータセットとモデル

  • LayoutReader: Pre-training of Text and Layout for Reading Order Detection [46.8]
    ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。 この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
    論文  参考訳(メタデータ)   (Thu, 26 Aug 2021 05:52:32 GMT)
    • 現実的なデータに対してOCRを行うときに問題となる読み取り順の検出に関する報告。読み出し順序、テキスト、レイアウト情報からなる50万ページ分のベンチマークデータセット「ReadingBank」を構築、テキスト情報をレイアウト情報を併用するアプローチ(LayoutReader)でヒューリスティックな方法を大きく上回る性能を出したとのこと。
    • ReadingBankデータセットとLayoutReaderモデルはhttps://github.com/doc-analysis/ReadingBankで公開予定とのこと。
      • FuguMTでも読み取り順抽出を間違うことが多く応用可能か試してみたい。

自動Fact-Checkingのサーベイ

  • A Survey on Automated Fact-Checking [18.3]
    本稿では,自然言語処理によるファクトチェックの自動化について検討し,関連する課題や規律との関係について考察する。 既存のデータセットとモデルを概観し、与えられた様々な定義を統一し、共通の概念を識別することを目的としている。
    論文  参考訳(メタデータ)   (Thu, 26 Aug 2021 16:34:51 GMT)
    • ファクトチェックに関する要素を分析、関連するデータセットを一覧化、モデル構築のアプローチを整理している。この分野の歴史を振り返るうえで優れた資料。Research Challenges のところは自然言語処理一般に言える難しさも多い。
    • 本文は12ページとサーベイにしては短め。