コンテンツへスキップ
- LayoutReader: Pre-training of Text and Layout for Reading Order Detection [46.8]
ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。 この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
論文 参考訳(メタデータ) (Thu, 26 Aug 2021 05:52:32 GMT)- 現実的なデータに対してOCRを行うときに問題となる読み取り順の検出に関する報告。読み出し順序、テキスト、レイアウト情報からなる50万ページ分のベンチマークデータセット「ReadingBank」を構築、テキスト情報をレイアウト情報を併用するアプローチ(LayoutReader)でヒューリスティックな方法を大きく上回る性能を出したとのこと。
- A Survey on Automated Fact-Checking [18.3]
本稿では,自然言語処理によるファクトチェックの自動化について検討し,関連する課題や規律との関係について考察する。 既存のデータセットとモデルを概観し、与えられた様々な定義を統一し、共通の概念を識別することを目的としている。
論文 参考訳(メタデータ) (Thu, 26 Aug 2021 16:34:51 GMT)- ファクトチェックに関する要素を分析、関連するデータセットを一覧化、モデル構築のアプローチを整理している。この分野の歴史を振り返るうえで優れた資料。Research Challenges のところは自然言語処理一般に言える難しさも多い。
- 本文は12ページとサーベイにしては短め。