PDFTriage

  • PDFTriage: Question Answering over Long, Structured Documents [64.6]
    構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。 本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。 本実験は,既存の検索拡張LPMが失敗する問題に対して,提案したPDFTriage-augmentedモデルの有効性を実証するものである。
    論文  参考訳(メタデータ)   (Sat, 16 Sep 2023 04:29:05 GMT)
  • 構造化文書へについて分析し、PDFTriage(Generate document metadata → LLM-based triage → Answer using retrieved content)を提案、効果を確認。2 step目がfetch_pages, fetch_sections, fetch_table, fetch_figure, retrieveをAPI経由で呼び出す設計になっているのが面白い。
  • 「We identify a gap in question answering over structured documents with current LLM approaches, namely treating documents as plain text rather than structured objects;」はまさにその通りだと思う。PDF Triageのような手法ではなくRAGに近年のDocument understanding関連の成果を取り込むような方向性もあると思うが、早めに進化してほしいところ。

Document Understanding関連でもLLMの活用が進む

  • LMDX: Language Model-based Document Information Extraction and Localization [15.7]
    大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした 本稿では,文書情報の抽出に任意の LLM を適用する手法である LMDX を紹介する。
    論文  参考訳(メタデータ)   (Tue, 19 Sep 2023 22:32:56 GMT)
  • LLMを用いた文書からの情報抽出(OCRが起点)、LayoutLMv3を超えているのが凄い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です