LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.4] 大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。 LLM2Vecは、任意のデコーダのみのLLMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。 論文参考訳(メタデータ) (Tue, 09 Apr 2024 02:51:05 GMT)
論文中の「Based on these findings (we replicate these results for other inputs and other Mistral models in Appendix F) and the strong unsupervised results for Mistral-7B with bidirectional attention, we speculate that Mistral models are pre-trained with some form bidirectional attention, e g , prefix language modeling (Raffel et al , 2020) – at least for some parts of its training.」が非常に興味深い。
Is Cosine-Similarity of Embeddings Really About Similarity? [46.8] コサイン相似性(Cosine-similarity)は、2つのベクトル間の角度のコサイン、すなわちそれらの正規化の間のドット積である。 正規化線形モデルから導かれる埋め込みについて検討し、そこでは閉形式解が解析的洞察を促進する。 我々はコサイン相似性が任意の、したがって無意味な類似性をもたらすか分析的に導出する」。 論文参考訳(メタデータ) (Fri, 8 Mar 2024 16:48:20 GMT)