LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.4] 大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。 LLM2Vecは、任意のデコーダのみのLLMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。 論文参考訳(メタデータ) (Tue, 09 Apr 2024 02:51:05 GMT)
論文中の「Based on these findings (we replicate these results for other inputs and other Mistral models in Appendix F) and the strong unsupervised results for Mistral-7B with bidirectional attention, we speculate that Mistral models are pre-trained with some form bidirectional attention, e g , prefix language modeling (Raffel et al , 2020) – at least for some parts of its training.」が非常に興味深い。