MiMo-V2-Flash, K-EXAONE

  • MiMo-V2-Flash Technical Report [101.1]
    我々は309Bの総パラメータと15Bのアクティブパラメータを持つMixture-of-Experts(MoE)モデルであるMiMo-V2-Flashを提案する。 MiMo-V2-Flashは、スライディングウインドウ・アテンション(SWA)をインターリーブするハイブリッドアテンションアーキテクチャを採用している。 このモデルは、Multi-Token Prediction (MTP)で27兆トークンで事前トレーニングされ、ネイティブ32kコンテキスト長を使用し、256kまで拡張された。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 05:52:17 GMT)
  • Xiaomiによる高効率なLLM/LRM。pre trainingのトークン量も多い。Gemini 3のときも指摘されていたが、データ側のスケーリングの有効性がいまだ続いていそうな印象を受ける。
  • リポジトリはGitHub – XiaomiMiMo/MiMo-V2-Flash: MiMo-V2-Flash: Efficient Reasoning, Coding, and Agentic Foundation Model
  • K-EXAONE Technical Report [76.2]
    K-EXAONEはLG AI Researchが開発した大規模多言語言語モデルである。 256Kのコンテキストウィンドウをサポートし、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語をカバーしている。 我々はK-EXAONEを、推論、エージェント、一般、韓国語、多言語能力にまたがる総合的なベンチマークスイートで評価した。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 02:30:59 GMT)
  • K EXAONEのテクニカルレポート。236B(active 23B)と規模が大きいとはいえ、gpt-oss-120B highよりも(概ね)高い性能を出せている。
  • リポジトリはGitHub – LG-AI-EXAONE/K-EXAONE: Official repository for K-EXAONE built by LG AI Research

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です