- BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context Large Language Models [13.2]
大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うためにコンテキストの拡張を要求する。 既存のアプローチはコストがかかり、コンテキスト拡張の品質が劣る傾向がある。 拡張可能な埋め込みは、典型的なトークン埋め込みの強化である。
論文 参考訳(メタデータ) (Sun, 18 Feb 2024 12:41:01 GMT) - チャンキングフリーな埋め込み手法の提案。文ベースで文末に置かれたマーカーを目印にそれまでの内容を含めて埋め込みを行うイメージのよう。
- リポジトリはFlagOpen/FlagEmbedding: Dense Retrieval and Retrieval-augmented LLMs (github.com)