ReadingBankとLayoutReader: 読む順番を検出するためのデータセットとモデル

LayoutReader: Pre-training of Text and Layout for Reading Order Detection [46.8]
ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
論文参考訳（メタデータ） (Thu, 26 Aug 2021 05:52:32 GMT)
- 現実的なデータに対してOCRを行うときに問題となる読み取り順の検出に関する報告。読み出し順序、テキスト、レイアウト情報からなる50万ページ分のベンチマークデータセット「ReadingBank」を構築、テキスト情報をレイアウト情報を併用するアプローチ（LayoutReader）でヒューリスティックな方法を大きく上回る性能を出したとのこと。
- ReadingBankデータセットとLayoutReaderモデルはhttps://github.com/doc-analysis/ReadingBankで公開予定とのこと。
  - FuguMTでも読み取り順抽出を間違うことが多く応用可能か試してみたい。

コメントを残す

コメントを残す コメントをキャンセル