Multi-Lingual Text Embeddings

マルチリンガルなテキストの埋め込みについて2つ報告が出ていた。1つ目は高性能と話題のE5、もう1つはBAAIのモデルでベンチマーク上はE5以上の性能のように見える。いずれもオープンなライセンスのようで使いやすそう。

  • Multilingual E5 Text Embeddings: A Technical Report [63.5]
    異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。 そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
    論文  参考訳(メタデータ)   (Thu, 8 Feb 2024 13:47:50 GMT)
  • 高性能と話題でOpenAIの埋め込みモデルの別の選択肢としても有名な手法のテクニカルレポート
  • リポジトリはunilm/e5 at master · microsoft/unilm (github.com)、モデルはintfloat/multilingual-e5-base · Hugging Faceなど
  • BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation [28.2]
    本稿では,M3-Embeddingと呼ばれる新しい埋め込みモデルを提案する。 100以上の作業言語をサポートすることができるため、多言語および多言語検索タスクにおける最先端のパフォーマンスが新たに向上する。 M3-Embeddingは、短い文から最大8192トークンの長いドキュメントまで、さまざまな粒度の入力を処理することができる。
    論文  参考訳(メタデータ)   (Mon, 5 Feb 2024 17:26:49 GMT)
  • BAAIによる埋め込みモデル。E5より性能が高いと主張。
  • リポジトリはFlagOpen/FlagEmbedding: Dense Retrieval and Retrieval-augmented LLMs (github.com)モデルはBAAI/bge-m3 · Hugging Face

Time-LLM

  • Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.2]
    時系列予測は多くの実世界の力学系において重要な意味を持つ。 時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。 Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
    論文  参考訳(メタデータ)   (Mon, 29 Jan 2024 06:27:53 GMT)
  • 時系列予測にLLMを活用していこうという報告。「TIME-LLM shows promise in adapting frozen large language models for time series forecasting by reprogramming time series data into text prototypes more natural for LLMs and providing natural language guidance via Prompt-as-Prefix to augment reasoning.」とのことだが、なんでこんなことができるんだろう。。。
  • リポジトリはKimMeen/Time-LLM: [ICLR 2024] Official implementation of “Time-LLM: Time Series Forecasting by Reprogramming Large Language Models” (github.com)