Model Editing for New Document Integration in Generative Information Retrieval

  • Model Editing for New Document Integration in Generative Information Retrieval [110.9]
    生成検索(GR)は文書識別子(docID)の生成として情報検索(IR)タスクを再構成する 既存のGRモデルは、新たに追加されたドキュメントへの一般化が不十分で、しばしば正しいドキュメントIDを生成できない。 DOMEは,GRモデルを非表示文書に効果的かつ効率的に適応する新しい手法である。
    論文  参考訳(メタデータ)   (Tue, 03 Mar 2026 09:13:38 GMT)
  • Generative retrievalのためのModel Editing、「In this work, we have identified that the decoder’s failure to learn precise docID mappings is the key obstacle in adapting generative retrieval models to new documents. To address this, we have introduced DOME, a GR-specific model-editing framework with a hybrid-label adaptive training strategy that produces discriminative and precise updates to critical decoder layers.」とのこと。考え方自体がとても興味深い。
  • リポジトリはGitHub – zhangzhen-research/DOME · GitHub

ReasonIR: Training Retrievers for Reasoning Tasks

REPLUG: Retrieve and Plug

  • REPLUG: Retrieval-Augmented Black-Box Language Models [101.6]
    REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。 その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
    論文  参考訳(メタデータ)   (Wed, 1 Feb 2023 00:15:18 GMT)
  • 外部コーパスを併用することで言語モデルの性能を上げる試み。類似度で使う情報を得る事もできるが、REPLUG LSR (REPLUG with LM-Supervised Retrieval)はRetrieval部分を調整(学習)可能なモジュールとする。GPT, OPT, BLOOMといった超巨大な言語モデルを含めて性能が向上するとのこと。(当然かもだが)REPLUG LSRの方が性能が高そう。
  • 検索系手法との併用は結構な確率で嘘を混ぜ込む現状に対しての現実解な気がする。ただ、この手法を用いてさえ「REPLUG lacks interpretability as it is unclear when the model relies on retrieved knowledge or parametric knowledge」と書かれている。

英語文書検索タスクを非英語に転送

  • Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.3]
    我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。 6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。 弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 3 Sep 2021 17:15:38 GMT)
    • 英語のデータ+mBERTで作ったモデルが他言語のタスクでも有効であることを示した報告。色々なタスクで同様の性質が報告されているが、中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語と複数言語の文書検索タスクで結果を確認しており参考になる。