Harnessing Webpage UIs for Text-Rich Visual Understanding 

  • Harnessing Webpage UIs for Text-Rich Visual Understanding [112.0]
    テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。 これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。 我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 17:48:54 GMT)
  • 「We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts.」というデータセットの構築と、それらデータを用いたMLLMの構築。
  • プロジェクトサイトはMultiUI、リポジトリはGitHub – neulab/MultiUI: Code for Paper: Harnessing Webpage Uis For Text Rich Visual Understanding

Open Information Extractionのサーベイ

  • A Survey on Neural Open Information Extraction: Current Status and Future Directions [87.3]
    Open Information extract (OpenIE) は、大規模コーパスからの関係事実のドメインに依存しない発見を容易にする。 我々は、最先端のニューラルなOpenIEモデル、その設計決定、強み、弱点について概観する。
    論文  参考訳(メタデータ)   (Tue, 24 May 2022 02:24:55 GMT)
    • 非構造化テキストからファクトを抽出するOpenIEに関するサーベイ。タギングを行う手法と生成モデルを使う手法の両方を調査対象にしている。8ページとコンパクトなサーベイ。

WebFormer: WEBページからの情報抽出

  • WebFormer: The Web-page Transformer for Structure Information Extraction [44.5]
    構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。 シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。 本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
    論文  参考訳(メタデータ)   (Tue, 1 Feb 2022 04:44:02 GMT)
    • Webページの構造解析にTransformerベースの新たなモデルを提案、SWDEとCommon CrawlベンチマークでSoTAとのこと。単純なテキストベースの手法ではなく、エンコーダー部分にHTML-to-HTML(H2H)、HTML-to-Text(H2T)、Text-to-HTML(T2H)、Text-to-Text(T2T)など様々なアテンションを備えているのが特徴とのこと。

MAVE(Multi-source Attribute Value Extraction): 属性情報抽出データセット

Klarna Product Page Dataset:現実に近いWEBページのデータセット

  • The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning [60.5]
    本稿では,DOM木要素表現学習の未探索問題に対処する。 一般的なグラフベースのニューラルネットワークモデルを適用して、WebサイトDOMツリーに要素を埋め込むようにします。 ウェブページの大規模かつ現実的なデータセットを提示する。
    論文  参考訳(メタデータ)   (Wed, 3 Nov 2021 12:13:52 GMT)
    • 製品紹介のWEBページに対してアノテーションを行ったデータセット。8言語、8Kサイト、51Kページと規模が大きい。複数アルゴリズムでの評価結果も参考になる。
    • リポジトリはhttps://github.com/klarna/product-page-dataset、データのライセンスはCreative Commons BY-NC-SA licenseとのこと。

CoVA(Context-aware Visual Attention): DOMを使わないWEBページからの情報抽出

  • CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.1]
    WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。 我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。 提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
    論文  参考訳(メタデータ)   (Sun, 24 Oct 2021 00:21:46 GMT)
    • WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ(のスクリーンショット)にアノテーションを行いモデル構築を実施。データセットも公開されている。
      • 人間的というか力業的というか悩ましいが、性能向上効果があるのであれば汎用的なアプローチであると思う。