Multimodal Tree Decoder for Table of Contents Extraction in Document Images

  • Multimodal Tree Decoder for Table of Contents Extraction in Document Images [32.5]
    テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。 まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。 本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
    論文  参考訳(メタデータ)   (Tue, 6 Dec 2022 11:38:31 GMT)
  • Table of Contentsの自動生成モデルの開発。ベンチマーク用のデータセット作成も行っており、かつ、マルチモーダル。画像からの情報が多いというのは直感に反していない。
  • リポジトリはとのことだが、https://github.com/Pengfei-Hu/MTDまだ404

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です