HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

  • HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems [62.4]
    Retrieval-Augmented Generation (RAG) は知識能力の向上を目的としている。 HTML RAGは、検索された知識のフォーマットとして、平易なテキストの代わりにHTMLを使用する。 我々は,情報の損失を最小限に抑えつつ,HTMLの短縮化を図るため,HTMLのクリーニング,圧縮,プルーニング戦略を提案する。
    論文  参考訳(メタデータ)   (Tue, 05 Nov 2024 09:58:36 GMT)
  • RAGで使用する知識のフォーマットとしてHTMLを使用するという提案、ベンチマークでも優れた結果とのこと。ベースLLM(Llama 3.1 8B・70B)×提案手法・PlainText・Markdownの結果が興味深い。(HTMLがベストなのか読み取るのが難しいような気がしなくもない)
  • リポジトリはGitHub – plageon/HtmlRAG: HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieval Results in RAG Systems

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です