CoVA(Context-aware Visual Attention): DOMを使わないWEBページからの情報抽出

  • CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.1]
    WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。 我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。 提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
    論文  参考訳(メタデータ)   (Sun, 24 Oct 2021 00:21:46 GMT)
    • WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ(のスクリーンショット)にアノテーションを行いモデル構築を実施。データセットも公開されている。
      • 人間的というか力業的というか悩ましいが、性能向上効果があるのであれば汎用的なアプローチであると思う。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です