Information Retrieval – arXiv最新論文の紹介

ReasonIR: Training Retrievers for Reasoning Tasks

ReasonIR: Training Retrievers for Reasoning Tasks [139.5]
ReasonIR-8Bは一般的な推論タスクのために特別に訓練された最初のレトリバーである。新たに29.9 nDCG@10をリランカなしで、36.9 nDCG@10をリランカで達成している。
論文参考訳（メタデータ） (Tue, 29 Apr 2025 09:49:28 GMT)
合成データを活用し「We trained REASONIR-8B by fine-tuning LLAMA3.1-8B (Touvron et al , 2023) on a combination of public datasets and the synthetic data generated by REASONIR-SYNTHESIZER.」と構築された bi-encoder retrieverの提案。このような手法を用いてなお、BM25とのハイブリッドが有効という点も興味深い。
リポジトリはGitHub – facebookresearch/ReasonIR: Official repository for paper “ReasonIR Training Retrievers for Reasoning Tasks”.、reasonir/ReasonIR-8B · Hugging Face

A Survey of Model Architectures in Information Retrieval [64.8]
機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
論文参考訳（メタデータ） (Thu, 20 Feb 2025 18:42:58 GMT)
LLMの影響を受け、また、LLM時代で重要性増すInformation Retrievalのサーベイ
結論の「Information retrieval modeling has evolved from simple term matching to complex neural networks and LLM-driven approaches, significantly improving search capabilities. Key challenges ahead include balancing computational efficiency with performance, handling diverse data types, maintaining faithfulness and trustworthiness, and integrating with emerging technologies like autonomous agents.」はその通りと思う。

BM25S: Orders of magnitude faster lexical search via eager sparse scoring [0.0]
BM25Sは、NumpyとScipyのみに依存する、効率的なPythonベースのBM25の実装である。最も人気のあるPythonベースのフレームワークと比較して最大500倍のスピードアップを実現している。
論文参考訳（メタデータ） (Thu, 04 Jul 2024 04:01:05 GMT)
高速なBM25の実装
リポジトリはGitHub – xhluca/bm25s: Fast lexical search library implementing BM25 in Python using Scipy (on average 2x faster than Elasticsearch in single-threaded setting)

SynCDR : Training Cross Domain Retrieval Models with Synthetic Data [90.5]
クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。本稿では、これらの欠落したカテゴリの例をドメイン間で補うために合成データを生成するための簡単な解を提案する。我々は、この翻訳のために訓練された2つのドメインと、プロンプトを介して大規模に訓練されたテキストから画像への拡散モデルを使用するドメインを比較した。
論文参考訳（メタデータ） (Sun, 31 Dec 2023 08:06:53 GMT)
クロスドメイン検索へのデータ合成の応用
リポジトリはsamarth4149/SynCDR: Code for SynCDR (github.com)

Large Language Models for Information Retrieval: A Survey [56.4]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。ニューラルネットワークは複雑なコンテキスト信号や意味的ニュアンスを捉えるのに優れていますが、データ不足、解釈可能性、文脈的に妥当で不正確な応答の生成といった課題に直面しています。近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
論文参考訳（メタデータ） (Tue, 15 Aug 2023 12:09:20 GMT)
LLMと情報検索に関するサーベイ、query rewritingだけでも色々なアプローチがあることが分かり興味深い。

Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks [108.2]
本稿では,情報検索 (IR) と大規模言語モデル (LLM) のインタラクションのための検索・イン・ザ・チェイン (SearChain) という新しいフレームワークを提案する。まず、LLMはChain-of-Query(CoQ)と呼ばれるグローバルな推論チェーンを生成し、各ノードはIR指向のクエリとクエリへの応答で構成される。第2に、IRは、CoQの各ノードの回答を検証し、IRが高い信頼を与えると、取得した情報と一致しない回答を補正する。第3に、LLMはCoQにおける不足した知識をマークすることができ、IRはこの知識を提供することができる
論文参考訳（メタデータ） (Mon, 26 Jun 2023 06:39:15 GMT)
SearChain: Search-in-the-Chain – arXiv最新論文の紹介 (devneko.jp)のアップデート、リポジトリが公開されている　GitHub – xsc1234/Search-in-the-Chain: Code for Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks