今週も興味深いLLMが発表されている。
- MoEで小型強力なYuan 2.0-M32
- SSM(&Transformerのハイブリッド)であるが7Bと実用サイズかつTransformerアーキテクチャの7Bと競合する性能に見えるZamba
- 中国語-英語ではあるが強力なオープンモデルであるMAP-Neo
- Yuan 2.0-M32: Mixture of Experts with Attention Router [30.9]
Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。 新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示す。
論文 参考訳(メタデータ) (Tue, 28 May 2024 09:05:08 GMT) - MoEでアクティブパラメータが少ないが優れた性能を主張するLLM。多くのタスクでアクティブパラメータ的に同規模のPhi-3、倍以上の規模のLlama-3 8Bよりスコアが高い。
- リポジトリはGitHub – IEIT-Yuan/Yuan2.0-M32: Mixture-of-Experts (MoE) Language Model
- Zamba: A Compact 7B SSM Hybrid Model [11.0]
Zambaは7B SSMトランスフォーマーハイブリッドモデルである。 Zambaは、公開データセットから1Tトークンをトレーニングする。 Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
論文 参考訳(メタデータ) (Sun, 26 May 2024 22:23:02 GMT) - SSMとTransformerのハイブリッドで効率的だが強力なLLM
- リポジトリはZyphra/Zamba-7B-v1 · Hugging Face
- MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.3]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
論文 参考訳(メタデータ) (Wed, 29 May 2024 17:57:16 GMT) - 強力かつオープンなLLM
- プロジェクトサイトはMAP-Neo、HuggingFace weightはNeo-Models – a m-a-p Collection (huggingface.co)