DeepSeek v3, QVQ-72B-Preview, YuLan-Mini

公開モデルも高性能化が続いている。DeepSeek v3は671Bと非常に大きなモデル(だが、アクティブパラメータは37BのMoE)でGPT-4oやClaude 3.5 Sonnet競合を主張。 GitHub – deepseek-ai/DeepSeek-V3

QVQ-72B-PreviewはQwen 2.5, Qwen 2 VL, GRIN-MoE, Pixtral – arXiv最新論文の紹介のQwen2 VLから推論能力を強化、GPT-4oだけでなくタスクによってはOpenAI o1と競合する性能を主張。QVQ: To See the World with Wisdom | Qwen

YuLan-Miniは2.42B、1.08Tトークンでのトレーニングと比較的小規模だが、競合する公開モデルを上回る性能を主張。YuLan-Mini/README_ja.md at main · RUC-GSAI/YuLan-Mini · GitHub

中国の研究機関はモデルや手法をかなり公開してくれている印象。非常にありがたい。

  • YuLan-Mini: An Open Data-efficient Language Model [111.0]
    2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。 注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 17:47:53 GMT)
  • 「Our approach includes three major contributions to enhance training efficacy: (1) an elaborately designed data pipeline that combines data cleaning with data schedule strategies; (2) a systematic optimization method that can effectively mitigate training instability; (3) an effective annealing approach that integrate targeted data selection and long context training.」とのこと。
  • DeepSeek-V3 Technical Report [147.2]
    We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token。 我々は14.8兆の多様性と高品質のトークンでDeepSeek-V3を事前訓練し、その後にSupervised Fine-Tuning and Reinforcement Learningのステージを受講した。 包括的な評価によると、DeepSeek-V3は他のオープンソースモデルよりも優れており、主要なクローズドソースモデルに匹敵するパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 04:03:16 GMT)
  • 「During the pre-training stage, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours, i.e., 3.7 days on our cluster with 2048 H800 GPUs. Consequently, our pretraining stage is completed in less than two months and costs 2664K GPU hours. Combined with 119K GPU hours for the context length extension and 5K GPU hours for post-training, DeepSeek-V3 costs only 2.788M GPU hours for its full training. Assuming the rental price of the H800 GPU is $2 per GPU hour, our total training costs amount to only $5.576M.」ととてもコストパフォーマンスが良い。もっとも「Note that the aforementioned costs include only the official training of DeepSeek-V3, excluding the costs associated with prior research and ablation experiments on architectures, algorithms, or data.」
  • Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code [123.7]
    本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。 これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。 我々はAurora-Mを幅広いタスクや言語で評価し、破滅的な忘れ物に対する頑健さを示した。
    論文  参考訳(メタデータ)   (Fri, 27 Dec 2024 03:53:21 GMT)
  • aurora-m/aurora-m-biden-harris-redteamed · Hugging Face こういったモデルも存在。対応言語に日本語が明記されている。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です