Kimi K2 Thinking, LongCat-Flash-Omni, iFlyBot-VLA, Nemotron Nano V2 VL

先週も様々な公開モデルやテクニカルレポートの公開があった。非常に進展が速くフロンティアモデルに迫るものが公開されている凄い状況である。

Kimi K2 Thinking(Kimi K2 Thinkingmoonshotai/Kimi-K2-Thinking · Hugging Face)は一部ベンチマークでGPT=5などフロンティアモデルを超える性能を主張するモデル。1Tパラメータ、Active 32BはGrok 4, Phi4-mini-Flash-Reasoning, SmolLM3, Kimi-K2, T5Gemma – arXiv最新論文の紹介の時と同じで「Starting with Kimi K2, we built it as a thinking agent that reasons step-by-step while dynamically invoking tools. It sets a new state-of-the-art on Humanity’s Last Exam (HLE), BrowseComp, and other benchmarks by dramatically scaling multi-step reasoning depth and maintaining stable tool-use across 200–300 sequential calls.」とのこと。

マルチモーダルモデルとしてはLongCat-Flash-Omni(meituan-longcat/LongCat-Flash-Omni · Hugging Face), iFlyBot-VLA(iFlyBot-VLA Tech ReportiFlyBot/iFlyBotVLM · Hugging Face), Nemotron Nano V2 VL(nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face)のテクニカルレポートが公開されていた。

  • iFlyBot-VLA Technical Report [25.3]
    iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。 主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
    論文  参考訳(メタデータ)   (Sat, 01 Nov 2025 06:24:56 GMT)
  • iFlyTechのVLAモデル、「The architecture of iFlyBot-VLA consists primarily of a language transformer backbone and an action expert network. The model generates executable robot actions through a combination of explicit and implicit planning.」とのこと
  • iFlyBot/iFlyBotVLM · Hugging Face
  • NVIDIA Nemotron Nano V2 VL [134.5]
    ネモトロン・ナノV2VLは、マンバ・トランスフォーマーのハイブリッドLLMであるネモトロン・ナノV2上に構築される。 BF16、FP8、FP4フォーマットでモデルチェックポイントをリリースしています。
    論文  参考訳(メタデータ)   (Thu, 06 Nov 2025 00:10:19 GMT)
  • 「Nemotron Nano V2 VL delivers significant improvements over our previous model, Llama-3.1-Nemotron-Nano-VL-8B, across all vision and text domains through major enhancements in model architecture, datasets, and training recipes. Nemotron Nano V2 VL builds on Nemotron Nano V2, a hybrid Mamba-Transformer LLM, and innovative token reduction techniques to achieve higher inference throughput in long document and video scenarios.」とハイブリッド構成なマルチモーダルモデル
  • nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1 · Hugging Face

World Simulation with Video Foundation Models for Physical AI 

A Survey on Efficient Large Language Model Training: From Data-centric Perspectives

  • A Survey on Efficient Large Language Model Training: From Data-centric Perspectives [42.9]
    本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。 本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。 我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
    論文  参考訳(メタデータ)   (Wed, 29 Oct 2025 17:01:55 GMT)
  • 「We propose a taxonomy of data-efficient LLM post-training methods, covering data selection, data quality enhancement, synthetic data generation, data distillation and compression, and self-evolving data ecosystems. We summarize representative approaches in each category and outline future research directions.」というサーベイ。
  • リポジトリはGitHub – luo-junyu/Awesome-Data-Efficient-LLM: A list of data-efficient and data-centric LLM (Large Language Model) papers. Our Survey Paper: Towards Efficient LLM Post Training: A Data-centric Perspective

Diffusion Language Models are Super Data Learners

  • Diffusion Language Models are Super Data Learners [61.7]
    ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。 本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
    論文  参考訳(メタデータ)   (Wed, 05 Nov 2025 08:17:42 GMT)
  • 「The main empirical finding is a Crossover: when total training tokens are fixed but the number of unique tokens is limited, DLMs consistently surpass equally sized AR counterparts. This crossover is not an isolated artifact—it systematically shifts with core factors. With more unique data, it shifts later; with higher data quality, it shifts later; with larger models, the crossover arrives earlier; and it persists across dense and sparse (MoE) architectures (Figures 2, 3, 4). Under compute-bound settings with abundant unique data, AR recovers its edge by fitting the data more rapidly; but in data-bound regimes, which is our focus and, increasingly, the practical reality, DLM is the final winner.」との主張。Diffusion Beats Autoregressive in Data-Constrained Settings  – arXiv最新論文の紹介の主張とも整合的であるように思う。
  • プロジェクトサイトはDiffusion Language Models are Super Data Learners、リポジトリはGitHub – JinjieNi/dlms-are-super-data-learners: The official github repo for “Diffusion Language Models are Super Data Learners”.

同著者の下記論文も興味深い。

RoboOmni: Proactive Robot Manipulation in Omni-modal Context 

  • RoboOmni: Proactive Robot Manipulation in Omni-modal Context [165.1]
    我々は,音声対話や環境音,視覚的手がかりから意図を導出する,クロスモーダルな文脈指示を導入する。 目的認識,インタラクション確認,アクション実行を統一する,エンドツーエンドのOmni-Modal LLMに基づくフレームワークであるRoboOmniを提案する。 シミュレーションと実世界の設定の実験では、Robo OmniはテキストベースとASRベースのベースラインを越え、成功率、推論速度、意図認識、積極的に支援している。
    論文  参考訳(メタデータ)   (Mon, 27 Oct 2025 18:49:03 GMT)
  • 「There arises a key research question: Can a robot integrate cross-modal context, including speech, environmental audio, and visual observations, to proactively infer and verify user intent?」という疑問に対してのマルチモーダルモデル「we propose RoboOmni, an end-to-end omni-modal framework for manipulation that closes the loop of intent recognition, interaction confirmation, and action execution. Unlike prior approaches, RoboOmni supports direct speech interaction without ASR, infers latent commands by fusing human speech, environmental audio, and vision through spatiotemporal modeling, and verifies intent via interaction.」
  • プロジェクトサイトはRoboOmni: Proactive Robot Manipulation in Omni-modal Context

Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts

  • Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.1]
    オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。 具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。 実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
    論文  参考訳(メタデータ)   (Mon, 27 Oct 2025 05:47:48 GMT)
  • MoEに対する強化学習のための「Router-Shift Policy Optimization (RSPO), an RL algorithm specifically designed for MoE architectures to achieve stable and efficient training.」を提案。

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

  • Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks [33.7]
    下流認識タスクを強化するための新しい合成データ生成フレームワークであるDream4Driveを紹介する。 Dream4Driveは入力ビデオを複数の3D対応誘導マップに分解し、これらの誘導マップに3Dアセットをレンダリングする。 駆動世界モデルは、下流の知覚モデルをトレーニングするために使用できる編集されたマルチビュービデオを作成するために微調整される。
    論文  参考訳(メタデータ)   (Fri, 24 Oct 2025 10:10:43 GMT)
  • 「We propose Dream4Drive, a 3D-aware synthetic data generation framework that edits the video with dense guidance maps, producing synthetic data with diverse appearances and geometric consistency.」とデータ合成フレームワークの提案。
  • プロジェクトサイトはRethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Social Simulations with Large Language Model Risk Utopian Illusion 

  • Social Simulations with Large Language Model Risk Utopian Illusion [61.4]
    社会シミュレーションにおける大規模言語モデルの行動分析のための体系的枠組みを提案する。 本手法は,チャットルーム型会話を通してマルチエージェントインタラクションをシミュレートし,5つの言語的側面にわたって解析する。 以上の結果から,LSMは真の人間の行動を忠実に再現するのではなく,過度に理想化されたバージョンを反映していることが明らかとなった。
    論文  参考訳(メタデータ)   (Fri, 24 Oct 2025 06:08:41 GMT)
  • 様々なところで試されているLLMを用いた社会シミュレーションに関する報告、「Our findings reveal that LLMs do not faithfully reproduce genuine human behavior but instead reflect overly idealized versions of it, shaped by the social desirabil- ity bias. In particular, LLMs show social role bias, primacy effect, and positivity bias, resulting in “Utopian” societies that lack the complexity and variability of real human interactions.」と否定的見解。

Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

  • Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark [124.0]
    我々は、ビデオモデルがゼロショット推論器として機能する準備が整っているかどうかを実証研究する。 私たちは、人気の高いVeo-3に注力しています。 我々は,空間的,幾何学的,物理的,時間的,具体的論理を含む12次元にわたる推論行動を評価する。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 17:59:55 GMT)
  • Video models are zero-shot learners and reasoners – arXiv最新論文の紹介」という主張もあるが、異なるチームによる論文。「Our findings reveal that while current video models demonstrate promising reasoning patterns on short-horizon spatial coherence, fine-grained grounding, and locally consistent dynamics, they remain limited in long-horizon causal reasoning, strict geometric constraints, and abstract logic. Overall, they are not yet reliable as standalone zero-shot reasoners, but exhibit encouraging signs as complementary visual engines alongside dedicated reasoning models.」とのことで可能性を感じる結果ではある。
  • プロジェクトサイトはAre Video Models Ready as Zero-Shot Reasoners?

DeepAgent: A General Reasoning Agent with Scalable Toolsets 

  • DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6]
    DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。 長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。 LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
    論文  参考訳(メタデータ)   (Fri, 24 Oct 2025 16:24:01 GMT)
  • ツール利用等も可能になるエージェントフレームワークの紹介。QwQ-32Bをバックボーンとして有効性を検証している。
  • リポジトリはGitHub – RUC-NLPIR/DeepAgent: 🛠️ DeepAgent: A General Reasoning Agent with Scalable Toolsets