Document Retrieval – arXiv最新論文の紹介

ReasonIR: Training Retrievers for Reasoning Tasks

ReasonIR: Training Retrievers for Reasoning Tasks [139.5]
ReasonIR-8Bは一般的な推論タスクのために特別に訓練された最初のレトリバーである。新たに29.9 nDCG@10をリランカなしで、36.9 nDCG@10をリランカで達成している。
論文参考訳（メタデータ） (Tue, 29 Apr 2025 09:49:28 GMT)
合成データを活用し「We trained REASONIR-8B by fine-tuning LLAMA3.1-8B (Touvron et al , 2023) on a combination of public datasets and the synthetic data generated by REASONIR-SYNTHESIZER.」と構築された bi-encoder retrieverの提案。このような手法を用いてなお、BM25とのハイブリッドが有効という点も興味深い。
リポジトリはGitHub – facebookresearch/ReasonIR: Official repository for paper “ReasonIR Training Retrievers for Reasoning Tasks”.、reasonir/ReasonIR-8B · Hugging Face

REPLUG: Retrieval-Augmented Black-Box Language Models [101.6]
REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
論文参考訳（メタデータ） (Wed, 1 Feb 2023 00:15:18 GMT)
外部コーパスを併用することで言語モデルの性能を上げる試み。類似度で使う情報を得る事もできるが、REPLUG LSR (REPLUG with LM-Supervised Retrieval)はRetrieval部分を調整（学習）可能なモジュールとする。GPT, OPT, BLOOMといった超巨大な言語モデルを含めて性能が向上するとのこと。（当然かもだが）REPLUG LSRの方が性能が高そう。
検索系手法との併用は結構な確率で嘘を混ぜ込む現状に対しての現実解な気がする。ただ、この手法を用いてさえ「REPLUG lacks interpretability as it is unclear when the model relies on retrieved knowledge or parametric knowledge」と書かれている。

Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.3]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。 6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文参考訳（メタデータ）参考訳（全文） (Fri, 3 Sep 2021 17:15:38 GMT)
- 英語のデータ＋mBERTで作ったモデルが他言語のタスクでも有効であることを示した報告。色々なタスクで同様の性質が報告されているが、中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語と複数言語の文書検索タスクで結果を確認しており参考になる。