CoVA(Context-aware Visual Attention): DOMを使わないWEBページからの情報抽出

CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.1]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文参考訳（メタデータ） (Sun, 24 Oct 2021 00:21:46 GMT)
- WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ（のスクリーンショット）にアノテーションを行いモデル構築を実施。データセットも公開されている。
  - 人間的というか力業的というか悩ましいが、性能向上効果があるのであれば汎用的なアプローチであると思う。
- リポジトリはhttps://github.com/kevalmorabia97/cova-web-object-detection

コメントを残す

コメントを残す コメントをキャンセル