Webpage information extraction – arXiv最新論文の紹介

WebDancer, EvolveSearch, Can Large Language Models Match the Conclusions of Systematic Reviews?

情報検索・収集でもエージェントの活用が盛ん。

WebDancer: Towards Autonomous Information Seeking Agency [67.1]
エージェントシステムの最近の進歩は、自律的な多段階研究の可能性を強調している。データ中心およびトレーニング段階の観点からエージェントを探索するエンドツーエンドのエージェント情報を構築するための凝集パラダイムを提案する。我々はこのフレームワークを ReAct, WebDancer に基づいた Web エージェントでインスタンス化する。
論文参考訳（メタデータ） (Wed, 28 May 2025 17:57:07 GMT)
Tongyi Lab , Alibaba による情報探索エージェントの提案。ポストトレーニングを含む4ステージ構成。この手のエージェントを（簡易ではなく本気で）開発するうえで参考になる。
- Step I: Construct diverse and challenging deep information seeking QA pairs based on the real-world web environment (§2.1); Step II: Sample high-quality trajectories from QA pairs using both LLMs and LRMs to guide the agency learning process (§2.2); Step III: Perform fine-tuning to adapt the format instruction following to agentic tasks and environments (§3.1); Step IV: Apply RL to optimize the agent’s decision-making and generalization capabilities in real-world web environments (§3.2).
GitHub – Alibaba-NLP/WebAgent: 🌐 WebWalker [ACL2025] & WebDancer [Preprint]

EvolveSearch: An Iterative Self-Evolving Search Agent [98.2]
大規模言語モデル(LLM)は、検索エンジンやWebブラウザなどのツールを統合することで、エージェント情報検索機能を変革した。本研究では,SFTとRLを組み合わせた新たな反復的自己進化フレームワークであるEvolveSearchを提案する。
論文参考訳（メタデータ） (Wed, 28 May 2025 15:50:48 GMT)
上記と同じくTongyi Lab , Alibabaが関わる成果

一方で下記のような指摘もある。

Can Large Language Models Match the Conclusions of Systematic Reviews? [43.3]
我々は、大言語モデル(LLM)は、同じ研究にアクセスできると、臨床専門家が書いた体系的なレビューの結論に一致するだろうか? MedEvidenceでは、推論、非推論、医療スペシャリスト、さまざまなサイズ(7B-700Bから)のモデルを含む24のLCMをベンチマークします。 MedEvidenceでは、推論が必ずしも性能を向上しておらず、より大規模なモデルでは常に大きな利得が得られず、知識に基づく微調整は精度を低下させる。
論文参考訳（メタデータ） (Wed, 28 May 2025 18:58:09 GMT)
「Consequently, given the same studies, frontier LLMs fail to match the conclusions of systematic reviews in at least 37% of evaluated cases.」が高いか低いかは悩ましいところだが「unlike humans, LLMs struggle with uncertain evidence and cannot exhibit skepticism when studies present design flaws」は気になる。「We identify four key factors that influence model performance on our benchmark: (1) token length, (2) dependency on treatment outcomes, (3) inability to assess the quality of evidence, and (4) lack of skepticism toward low-quality findings.」との記載があるが、「内容の評価」は難しい課題なのだと思う。
また、「Across all comparisons, medical finetuning fails to improve performance (even for medical-reasoning models) and, in most cases, actually degrades it. Indeed, fine-tuning without proper calibration can harm generalization, some- times resulting in worse performance than the base model [49, 50, 51].」も面白い。
リポジトリはGitHub – zy-f/med-evidence

Harnessing Webpage UIs for Text-Rich Visual Understanding

Harnessing Webpage UIs for Text-Rich Visual Understanding [112.0]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文参考訳（メタデータ） (Thu, 17 Oct 2024 17:48:54 GMT)
「We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts.」というデータセットの構築と、それらデータを用いたMLLMの構築。
プロジェクトサイトはMultiUI、リポジトリはGitHub – neulab/MultiUI: Code for Paper: Harnessing Webpage Uis For Text Rich Visual Understanding

Open Information Extractionのサーベイ

A Survey on Neural Open Information Extraction: Current Status and Future Directions [87.3]
Open Information extract (OpenIE) は、大規模コーパスからの関係事実のドメインに依存しない発見を容易にする。我々は、最先端のニューラルなOpenIEモデル、その設計決定、強み、弱点について概観する。
論文参考訳（メタデータ） (Tue, 24 May 2022 02:24:55 GMT)
- 非構造化テキストからファクトを抽出するOpenIEに関するサーベイ。タギングを行う手法と生成モデルを使う手法の両方を調査対象にしている。8ページとコンパクトなサーベイ。

WebFormer: WEBページからの情報抽出

WebFormer: The Web-page Transformer for Structure Information Extraction [44.5]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文参考訳（メタデータ） (Tue, 1 Feb 2022 04:44:02 GMT)
- Webページの構造解析にTransformerベースの新たなモデルを提案、SWDEとCommon CrawlベンチマークでSoTAとのこと。単純なテキストベースの手法ではなく、エンコーダー部分にHTML-to-HTML(H2H)、HTML-to-Text(H2T)、Text-to-HTML(T2H)、Text-to-Text(T2T)など様々なアテンションを備えているのが特徴とのこと。

MAVE(Multi-source Attribute Value Extraction): 属性情報抽出データセット

MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.4]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。 MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文参考訳（メタデータ） (Thu, 16 Dec 2021 06:48:31 GMT)
- 商品名や概要、レビューなど商品属性を抽出するタスクのデータセット。220万の商品、1257の商品カテゴリ、300万のアノテーションと大規模。ゼロショットを含めベースラインモデルでの検証が行われており、その結果も参考になる。
- リポジトリはGitHub – google-research-datasets/MAVE: The dataset contains 3 million attribute-value annotations across 1257 unique categories on 2.2 million cleaned Amazon product profiles. It is a large, multi-sourced, diverse dataset for product attribute extraction study.

Klarna Product Page Dataset：現実に近いWEBページのデータセット

The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning [60.5]
本稿では,DOM木要素表現学習の未探索問題に対処する。一般的なグラフベースのニューラルネットワークモデルを適用して、WebサイトDOMツリーに要素を埋め込むようにします。ウェブページの大規模かつ現実的なデータセットを提示する。
論文参考訳（メタデータ） (Wed, 3 Nov 2021 12:13:52 GMT)
- 製品紹介のWEBページに対してアノテーションを行ったデータセット。8言語、8Kサイト、51Kページと規模が大きい。複数アルゴリズムでの評価結果も参考になる。
- リポジトリはhttps://github.com/klarna/product-page-dataset、データのライセンスはCreative Commons BY-NC-SA licenseとのこと。

CoVA(Context-aware Visual Attention): DOMを使わないWEBページからの情報抽出

CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.1]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文参考訳（メタデータ） (Sun, 24 Oct 2021 00:21:46 GMT)
- WEBからの情報抽出にDOMを使うのではなくレンダリングされたWEBページにOCRを適用するというアプローチの論文。408サイト、7.7kのページ（のスクリーンショット）にアノテーションを行いモデル構築を実施。データセットも公開されている。
  - 人間的というか力業的というか悩ましいが、性能向上効果があるのであれば汎用的なアプローチであると思う。
- リポジトリはhttps://github.com/kevalmorabia97/cova-web-object-detection

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31