MiMo-V2-Flash, K-EXAONE – arXiv最新論文の紹介

MiMo-V2-Flash Technical Report [101.1]
我々は309Bの総パラメータと15Bのアクティブパラメータを持つMixture-of-Experts(MoE)モデルであるMiMo-V2-Flashを提案する。 MiMo-V2-Flashは、スライディングウインドウ・アテンション(SWA)をインターリーブするハイブリッドアテンションアーキテクチャを採用している。このモデルは、Multi-Token Prediction (MTP)で27兆トークンで事前トレーニングされ、ネイティブ32kコンテキスト長を使用し、256kまで拡張された。
論文参考訳（メタデータ） (Thu, 08 Jan 2026 05:52:17 GMT)
Xiaomiによる高効率なLLM/LRM。pre trainingのトークン量も多い。Gemini 3のときも指摘されていたが、データ側のスケーリングの有効性がいまだ続いていそうな印象を受ける。
リポジトリはGitHub – XiaomiMiMo/MiMo-V2-Flash: MiMo-V2-Flash: Efficient Reasoning, Coding, and Agentic Foundation Model

K-EXAONE Technical Report [76.2]
K-EXAONEはLG AI Researchが開発した大規模多言語言語モデルである。 256Kのコンテキストウィンドウをサポートし、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語をカバーしている。我々はK-EXAONEを、推論、エージェント、一般、韓国語、多言語能力にまたがる総合的なベンチマークスイートで評価した。
論文参考訳（メタデータ） (Mon, 05 Jan 2026 02:30:59 GMT)
K EXAONEのテクニカルレポート。236B（active 23B）と規模が大きいとはいえ、gpt-oss-120B highよりも（概ね）高い性能を出せている。
リポジトリはGitHub – LG-AI-EXAONE/K-EXAONE: Official repository for K-EXAONE built by LG AI Research

コメントを残す

コメントを残す コメントをキャンセル