- CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.1]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。 我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。 提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (Sun, 24 Oct 2021 00:21:46 GMT)- WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ(のスクリーンショット)にアノテーションを行いモデル構築を実施。データセットも公開されている。
- 人間的というか力業的というか悩ましいが、性能向上効果があるのであれば汎用的なアプローチであると思う。
- WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ(のスクリーンショット)にアノテーションを行いモデル構築を実施。データセットも公開されている。