- BM25S: Orders of magnitude faster lexical search via eager sparse scoring [0.0]
BM25Sは、NumpyとScipyのみに依存する、効率的なPythonベースのBM25の実装である。 最も人気のあるPythonベースのフレームワークと比較して最大500倍のスピードアップを実現している。
論文 参考訳(メタデータ) (Thu, 04 Jul 2024 04:01:05 GMT) - 高速なBM25の実装
- リポジトリはGitHub – xhluca/bm25s: Fast lexical search library implementing BM25 in Python using Scipy (on average 2x faster than Elasticsearch in single-threaded setting)
タグ: Information Retrieval
SynCDR
- SynCDR : Training Cross Domain Retrieval Models with Synthetic Data [90.5]
クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。 本稿では、これらの欠落したカテゴリの例をドメイン間で補うために合成データを生成するための簡単な解を提案する。 我々は、この翻訳のために訓練された2つのドメインと、プロンプトを介して大規模に訓練されたテキストから画像への拡散モデルを使用するドメインを比較した。
論文 参考訳(メタデータ) (Sun, 31 Dec 2023 08:06:53 GMT) - クロスドメイン検索へのデータ合成の応用
- リポジトリはsamarth4149/SynCDR: Code for SynCDR (github.com)
Large Language Models for Information Retrieval: A Survey
- Large Language Models for Information Retrieval: A Survey [56.4]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。 ニューラルネットワークは複雑なコンテキスト信号や意味的ニュアンスを捉えるのに優れていますが、データ不足、解釈可能性、文脈的に妥当で不正確な応答の生成といった課題に直面しています。 近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
論文 参考訳(メタデータ) (Tue, 15 Aug 2023 12:09:20 GMT) - LLMと情報検索に関するサーベイ、query rewritingだけでも色々なアプローチがあることが分かり興味深い。
SearChain: Search-in-the-Chainのリポジトリ
- Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks [108.2]
本稿では,情報検索 (IR) と大規模言語モデル (LLM) のインタラクションのための検索・イン・ザ・チェイン (SearChain) という新しいフレームワークを提案する。 まず、LLMはChain-of-Query(CoQ)と呼ばれるグローバルな推論チェーンを生成し、各ノードはIR指向のクエリとクエリへの応答で構成される。 第2に、IRは、CoQの各ノードの回答を検証し、IRが高い信頼を与えると、取得した情報と一致しない回答を補正する。 第3に、LLMはCoQにおける不足した知識をマークすることができ、IRはこの知識を提供することができる
論文 参考訳(メタデータ) (Mon, 26 Jun 2023 06:39:15 GMT) - SearChain: Search-in-the-Chain – arXiv最新論文の紹介 (devneko.jp)のアップデート、リポジトリが公開されている GitHub – xsc1234/Search-in-the-Chain: Code for Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks