DeepSeek v2, Llama 3 Youko 8B, AlphaFold 3

来週OpenAIから大きな発表があるとアナウンスされているが、今週もLLM関連の話題は多かった。注目はMoEなDeepSeek v2でありコンテキスト長、性能とも非常に期待できそう。日本語話者としてはLlama 3の日本語強化バージョンであるLlama 3 Youko 8Bにも注目である。
rinna、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を公開|rinna株式会社

そして、AlphaFold3の論文がNatureに発表されている。LLM関連ではないがモデルの意義や影響は大きい。最新アーキテクチャの適用など研究を続け、かつ、成果を出しているのがすごい。
Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model (blog.google)

  • DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [0.0]
    We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 15:56:43 GMT)
  • Activeなパラメータが20B程度でMixtral 8x22BやLlama 3 70Bと競合する性能を主張、ライセンスは独自だがかなり寛容的なものに見える。
  • リポジトリはGitHub – deepseek-ai/DeepSeek-V2、Weightはdeepseek-ai/DeepSeek-V2 · Hugging Facedeepseek-ai/DeepSeek-V2-Chat · Hugging Face

Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

  • Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.2]
    一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している 本調査では,世界モデルの最新動向を包括的に調査する。 我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
    論文  参考訳(メタデータ)   (Mon, 06 May 2024 14:37:07 GMT)
  • SoraがWorld simulatorとして機能しうるかは賛否が分かれているが、より広く(自動運転や自律エージェントなど)World simulatorになりうる生成系AIのサーベイ。「we expect world models to possess the ability of counterfactual reasoning, whereby outcomes are inferred through rational imagining.」はその通りで現時点ではまだ困難という印象を受けたが、実現できる未来はすぐだったりするのだろうか。
  • リポジトリも参考になる GitHub – GigaAI-research/General-World-Models-Survey

Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense 

  • Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.1]
    大規模言語モデル(LLM)は、かなりの常識的理解を示している。 本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LLMの能力と限界について検討する。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 20:28:34 GMT)
  • 国(本件検証対象は中国、インド、イラン、ケニア、米国)によって違う常識がLLMでどう対応されているか調査した論文。「Our findings indicate that LLMs tend to associate general commonsense with cultures that are well-represented in the training data, and that LLMs have uneven performance on cultural commonsense, where they underperform for lessrepresented cultures.」に違和感はない。使用言語でほぼ決まるかとおもったら影響はあるが決定的ではないのが若干意外。
  • リポジトリはhttps://github.com/ MichiganNLP/LLM_cultural_commonsenseとのことだが、現時点では404