- Multimodal Tree Decoder for Table of Contents Extraction in Document Images [32.5]
テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。 まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。 本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (Tue, 6 Dec 2022 11:38:31 GMT) - Table of Contentsの自動生成モデルの開発。ベンチマーク用のデータセット作成も行っており、かつ、マルチモーダル。画像からの情報が多いというのは直感に反していない。
- リポジトリはとのことだが、https://github.com/Pengfei-Hu/MTDまだ404