DeepSeek v2, Llama 3 Youko 8B, AlphaFold 3

来週OpenAIから大きな発表があるとアナウンスされているが、今週もLLM関連の話題は多かった。注目はMoEなDeepSeek v2でありコンテキスト長、性能とも非常に期待できそう。日本語話者としてはLlama 3の日本語強化バージョンであるLlama 3 Youko 8Bにも注目である。
rinna、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を公開|rinna株式会社

そして、AlphaFold3の論文がNatureに発表されている。LLM関連ではないがモデルの意義や影響は大きい。最新アーキテクチャの適用など研究を続け、かつ、成果を出しているのがすごい。
Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model (blog.google)

  • DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [0.0]
    We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 15:56:43 GMT)
  • Activeなパラメータが20B程度でMixtral 8x22BやLlama 3 70Bと競合する性能を主張、ライセンスは独自だがかなり寛容的なものに見える。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-V2、Weightはdeepseek-ai/DeepSeek-V2 · Hugging Facedeepseek-ai/DeepSeek-V2-Chat · Hugging Face

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です