2021年8月28日 – arXiv最新論文の紹介

LayoutReader: Pre-training of Text and Layout for Reading Order Detection [46.8]
ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
論文参考訳（メタデータ） (Thu, 26 Aug 2021 05:52:32 GMT)
- 現実的なデータに対してOCRを行うときに問題となる読み取り順の検出に関する報告。読み出し順序、テキスト、レイアウト情報からなる50万ページ分のベンチマークデータセット「ReadingBank」を構築、テキスト情報をレイアウト情報を併用するアプローチ（LayoutReader）でヒューリスティックな方法を大きく上回る性能を出したとのこと。
- ReadingBankデータセットとLayoutReaderモデルはhttps://github.com/doc-analysis/ReadingBankで公開予定とのこと。
  - FuguMTでも読み取り順抽出を間違うことが多く応用可能か試してみたい。

A Survey on Automated Fact-Checking [18.3]
本稿では,自然言語処理によるファクトチェックの自動化について検討し,関連する課題や規律との関係について考察する。既存のデータセットとモデルを概観し、与えられた様々な定義を統一し、共通の概念を識別することを目的としている。
論文参考訳（メタデータ） (Thu, 26 Aug 2021 16:34:51 GMT)
- ファクトチェックに関する要素を分析、関連するデータセットを一覧化、モデル構築のアプローチを整理している。この分野の歴史を振り返るうえで優れた資料。Research Challenges のところは自然言語処理一般に言える難しさも多い。
- 本文は12ページとサーベイにしては短め。

日: 2021年8月28日