MiMo-V2-Flash, K-EXAONE

  • MiMo-V2-Flash Technical Report [101.1]
    我々は309Bの総パラメータと15Bのアクティブパラメータを持つMixture-of-Experts(MoE)モデルであるMiMo-V2-Flashを提案する。 MiMo-V2-Flashは、スライディングウインドウ・アテンション(SWA)をインターリーブするハイブリッドアテンションアーキテクチャを採用している。 このモデルは、Multi-Token Prediction (MTP)で27兆トークンで事前トレーニングされ、ネイティブ32kコンテキスト長を使用し、256kまで拡張された。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 05:52:17 GMT)
  • Xiaomiによる高効率なLLM/LRM。pre trainingのトークン量も多い。Gemini 3のときも指摘されていたが、データ側のスケーリングの有効性がいまだ続いていそうな印象を受ける。
  • リポジトリはGitHub – XiaomiMiMo/MiMo-V2-Flash: MiMo-V2-Flash: Efficient Reasoning, Coding, and Agentic Foundation Model
  • K-EXAONE Technical Report [76.2]
    K-EXAONEはLG AI Researchが開発した大規模多言語言語モデルである。 256Kのコンテキストウィンドウをサポートし、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語をカバーしている。 我々はK-EXAONEを、推論、エージェント、一般、韓国語、多言語能力にまたがる総合的なベンチマークスイートで評価した。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 02:30:59 GMT)
  • K EXAONEのテクニカルレポート。236B(active 23B)と規模が大きいとはいえ、gpt-oss-120B highよりも(概ね)高い性能を出せている。
  • リポジトリはGitHub – LG-AI-EXAONE/K-EXAONE: Official repository for K-EXAONE built by LG AI Research

From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence 

  • From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence [91.5]
    エピプレキシティ(英: Epiplexity)とは、計算的に境界付けられた観測者がデータから学べるものを捉える情報の形式化である。 計算によってどのように情報を生成するか、データの順序にどのように依存するか、そしてモデリングがデータ生成プロセス自体よりも複雑なプログラムを生成する可能性を示す。
    論文  参考訳(メタデータ)   (Tue, 06 Jan 2026 18:04:03 GMT)
  • 分野・キーワードとしてはシャノンの情報量やコルモゴロフ複雑性のようなイメージで、Epiplexity(we define a new information measure, epiplexity (epistemic complexity), which formally defines the amount of structural information that a computationally-bounded observer can extract from the data. Briefly, epilexity is the information in the model that minimizes the description length of data under computational constraints.)を提案。機械学習を実務適用しているときに言う「情報」に近しい印象。
  • そのものが役に立つかというよりは考え方として非常に面白い内容。

Qwen3-VL-Embedding, Qwen3-VL-Reranker, e5-omni

マルチモーダルな埋め込み手法の論文が発表されている。1つめは Qwen familyでembeddingモデルそのものとrerankerモデル。2つ目は手法の提案でVLMのバックボーンをオムニモーダルに変換していくタイプ。分散表現を得るのもマルチモーダル化が進んでいくのは興味深いところ。

  • Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking [80.5]
    本稿では,Qwen3-VL-EmbeddingとQwen3-VL-Rerankerモデルシリーズを紹介する。 Qwen3-VL-Embeddingモデルでは、意味的にリッチな高次元ベクトルを生成するためのマルチステージトレーニングパラダイムを採用している。 Qwen3-VL-Rerankerはクエリ-ドキュメントペアの詳細な関連性推定を行う。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 08:36:06 GMT)
  • リポジトリはGitHub – QwenLM/Qwen3-VL-Embedding
  • e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings [91.3]
    市販の視覚言語モデルをロバストなオムニモーダル埋め込みモデルに適応させる軽量な明示的アライメントレシピであるe5-omniを提案する。 e5-omniは、類似度尺度を整合させるためにモード対応温度校正と、混乱する負の点に焦点を合わせた制御可能な負のカリキュラムと、クロスモーダル幾何に適合するバッチホワイトニングを組み合わせる。 MMEB-V2とAudioCapsの実験では、強いバイモーダルおよびオムニモーダルベースラインよりも一貫した利得を示した。
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 07:39:40 GMT)
  • リポジトリはHaon-Chen/e5-omni-7B · Hugging Face

Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs

  • Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs [43.4]
    本稿では,対称/逆三重項からテキストを生成する合成フレームワークを提案し,GPTスタイルの自己回帰モデルをスクラッチから訓練し,記憶,論理推論,文脈内一般化を評価する。 浅層(2-3層)モデルにおいても,関係性セマンティクスが十分な論理量制御によって出現し,その一般化が安定な中間層信号と一致していることが判明した。
    論文  参考訳(メタデータ)   (Tue, 06 Jan 2026 11:20:38 GMT)
  • AutoregressiveなLMにおいて「単に覚える」から一般化されるまでの状況を分析した非常に興味深い研究。「In our results, we observe a sharp phase transition in which relational semantics emerge with sufficient logic-bearing supervision, even in shallow (2–3 layer) models, and successful generalization aligns with stable intermediate-layer signals. Moreover, order-matched forward/reverse tests indicate that reversal failures are primarily driven by AR order bias rather than deficient inversion semantics」とのこと。