- MiMo-V2-Flash Technical Report [101.1]
我々は309Bの総パラメータと15Bのアクティブパラメータを持つMixture-of-Experts(MoE)モデルであるMiMo-V2-Flashを提案する。 MiMo-V2-Flashは、スライディングウインドウ・アテンション(SWA)をインターリーブするハイブリッドアテンションアーキテクチャを採用している。 このモデルは、Multi-Token Prediction (MTP)で27兆トークンで事前トレーニングされ、ネイティブ32kコンテキスト長を使用し、256kまで拡張された。
論文 参考訳(メタデータ) (Thu, 08 Jan 2026 05:52:17 GMT) - Xiaomiによる高効率なLLM/LRM。pre trainingのトークン量も多い。Gemini 3のときも指摘されていたが、データ側のスケーリングの有効性がいまだ続いていそうな印象を受ける。
- リポジトリはGitHub – XiaomiMiMo/MiMo-V2-Flash: MiMo-V2-Flash: Efficient Reasoning, Coding, and Agentic Foundation Model
- K-EXAONE Technical Report [76.2]
K-EXAONEはLG AI Researchが開発した大規模多言語言語モデルである。 256Kのコンテキストウィンドウをサポートし、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語をカバーしている。 我々はK-EXAONEを、推論、エージェント、一般、韓国語、多言語能力にまたがる総合的なベンチマークスイートで評価した。
論文 参考訳(メタデータ) (Mon, 05 Jan 2026 02:30:59 GMT) - K EXAONEのテクニカルレポート。236B(active 23B)と規模が大きいとはいえ、gpt-oss-120B highよりも(概ね)高い性能を出せている。
- リポジトリはGitHub – LG-AI-EXAONE/K-EXAONE: Official repository for K-EXAONE built by LG AI Research