- HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.6]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。 私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。 次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (Thu, 22 Jan 2026 09:27:27 GMT) - 「we introduce HumanLLM, a foundation model specifically designed to advance the personalized understanding and simulation of human cognition and behaviors.」と近年流行りつつあるLLM basedな社会シミュレーションのためのモデルの提案。「Extensive experiments across in-domain tasks, out-of-domain benchmarks, and real-world applications demonstrate that HumanLLM is a superior social data generator, human explainer, and user simulator. 」と有効性を主張。
- リポジトリはAnonymized Repository – Anonymous GitHub、https://aka.ms/humanllm
タグ: LLM
Agentic Confidence Calibration
- Agentic Confidence Calibration [67.5]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。 HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。 HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (Thu, 22 Jan 2026 09:08:25 GMT) - 「Our work addresses compounding uncertainty, heterogeneous signals, and data scarcity, yielding three key takeaways: (1) calibration relies on a hierarchy of diagnostic signals; (2) HTC features capture a transferable “uncertainty patterns” enabling strong cross-task generalization while exposing limits under distribution shift; and (3) a pretrained General Agent Calibrator (GAC) achieves the best ECE (zero-shot) on unseen tasks like GAIA, providing a plug-and-play foundation.」とエージェントの信頼度を総合的に評価していくフレームワーク
What Matters For Safety Alignment?
- What Matters For Safety Alignment? [38.9]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。 本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。 LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (Wed, 07 Jan 2026 12:31:52 GMT) - 「We systematically investigate and compare the influence of six critical intrinsic model characteristics and three external attack techniques. Our large-scale evaluation is conducted using 32 recent, popular LLMs and LRMs across thirteen distinct model families, spanning a parameter scale from 3B to 235B.」と安全性からのLLM/LRMの評価。「The top-three safest families OpenAI GPT-OSS [5], Alibaba Qwen3-Next [27], and Google Gemma-3 [28] are dramatically safer than the top-three most vulnerable Deepseek- R1Distilled [2], Mistral-v0.3 [29], and Seed-OSS [30] families. These disparities can be interpreted as indicators of varying institutional investments in safety research and relative maturity in model training pipelines and infrastructures.」としている。
- 基本的のは公開モデルが対象のよう。
Ministral 3, Molmo2, STEP3-VL
OpenAIの広告モデル(ChatGPT Go が登場、世界中で利用可能に | OpenAI)、LLMインタフェースのオープンな仕様(Open Responses、XユーザーのOpenAI Developersさん: 「Today we’re announcing Open Responses: an open-source spec for building multi-provider, interoperable LLM interfaces built on top of the original OpenAI Responses API. ✅ Multi-provider by default ✅ Useful for real-world workflows ✅ Extensible without fragmentation Build https://t.co/SJiBFx1BOF」 / X)、AnthropicのCowork(Introducing Cowork | Claude)、Appleの基盤モデルにGeminiが採用?などビジネス的に興味深いニュースが多かった。
オープンなモデルだとMinistral3やMolmo2、STEP3-VL-10BとMLLM関連の論文発表があった。いずれもサイズと性能のバランスが良く、期待が持てる。
広範なモデルを検証しているA Safety Reportにも要注目。
- Ministral 3 [159.0]
Ministral 3は、計算およびメモリ制約のあるアプリケーションのためのパラメータ効率の高い高密度言語モデルのファミリーである。 汎用目的のための事前訓練されたベースモデル、微調整された命令モデル、複雑な問題解決のための推論モデルである。 各モデルはイメージ理解機能を備えており、すべてApache 2.0ライセンスで提供されている。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 14:06:03 GMT) - Mistralからの発表。「A key component of Ministral 3 is our Cascade Distillation training strategy, an iterative pruning and distillation method, which progressively transfers pretrained knowledge from a large parent model down to a family of compact children models. Our recipe allows us to achieve performance that is competitive with models which had a much larger training budget.」とのこと
- プロジェクトサイトはIntroducing Mistral 3 | Mistral AI、モデルはMinistral 3 – a mistralai Collection
- Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding [73.5]
Molmo2はビデオ言語モデル(VLM)の新たなファミリーであり、オープンソースモデルの中でも最先端の製品である。 単一画像、マルチイメージ、ビデオタスクにおけるポイント駆動グラウンドリングにおいて、例外的な新機能を示す。 私たちの最高の8Bモデルは、ショートビデオ、カウント、キャプションでオープンウェイトとデータモデルのクラスで他よりも優れており、ロングビデオでは競争力があります。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 17:27:44 GMT) - Ai2の最新VLM、ver1から大きく性能を上げている。
- リポジトリはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model、モデルはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model
- STEP3-VL-10B Technical Report [115.9]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。 そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。 MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 17:06:04 GMT) - 小規模ながら強力な性能のVLM。Qwen3 VL 235B A22に匹敵と主張。
- プロジェクトサイトはStep3-VL-10B: Compact Yet Frontier Multimodal Intelligence、モデルはstepfun-ai/Step3-VL-10B · Hugging Face
- A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4]
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5。 ベンチマーク評価,対角評価,多言語評価,コンプライアンス評価を統合した統一プロトコルを用いて,言語,視覚言語,画像生成設定の各モデルを評価する。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 15:52:52 GMT) - 「In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We eval- uate each model across language, vision–language, and image generation settings us- ing a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation.」とMLLMや画像生成モデルに関する安全性評価。VLMとしてはGPT-5.2のスコアはさすがといったところ。
- プロジェクトサイトはSafety Report: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Nano Banana Pro, Seedream 4.5
MiMo-V2-Flash, K-EXAONE
- MiMo-V2-Flash Technical Report [101.1]
我々は309Bの総パラメータと15Bのアクティブパラメータを持つMixture-of-Experts(MoE)モデルであるMiMo-V2-Flashを提案する。 MiMo-V2-Flashは、スライディングウインドウ・アテンション(SWA)をインターリーブするハイブリッドアテンションアーキテクチャを採用している。 このモデルは、Multi-Token Prediction (MTP)で27兆トークンで事前トレーニングされ、ネイティブ32kコンテキスト長を使用し、256kまで拡張された。
論文 参考訳(メタデータ) (Thu, 08 Jan 2026 05:52:17 GMT) - Xiaomiによる高効率なLLM/LRM。pre trainingのトークン量も多い。Gemini 3のときも指摘されていたが、データ側のスケーリングの有効性がいまだ続いていそうな印象を受ける。
- リポジトリはGitHub – XiaomiMiMo/MiMo-V2-Flash: MiMo-V2-Flash: Efficient Reasoning, Coding, and Agentic Foundation Model
- K-EXAONE Technical Report [76.2]
K-EXAONEはLG AI Researchが開発した大規模多言語言語モデルである。 256Kのコンテキストウィンドウをサポートし、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語をカバーしている。 我々はK-EXAONEを、推論、エージェント、一般、韓国語、多言語能力にまたがる総合的なベンチマークスイートで評価した。
論文 参考訳(メタデータ) (Mon, 05 Jan 2026 02:30:59 GMT) - K EXAONEのテクニカルレポート。236B(active 23B)と規模が大きいとはいえ、gpt-oss-120B highよりも(概ね)高い性能を出せている。
- リポジトリはGitHub – LG-AI-EXAONE/K-EXAONE: Official repository for K-EXAONE built by LG AI Research
Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs
- Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs [43.4]
本稿では,対称/逆三重項からテキストを生成する合成フレームワークを提案し,GPTスタイルの自己回帰モデルをスクラッチから訓練し,記憶,論理推論,文脈内一般化を評価する。 浅層(2-3層)モデルにおいても,関係性セマンティクスが十分な論理量制御によって出現し,その一般化が安定な中間層信号と一致していることが判明した。
論文 参考訳(メタデータ) (Tue, 06 Jan 2026 11:20:38 GMT) - AutoregressiveなLMにおいて「単に覚える」から一般化されるまでの状況を分析した非常に興味深い研究。「In our results, we observe a sharp phase transition in which relational semantics emerge with sufficient logic-bearing supervision, even in shallow (2–3 layer) models, and successful generalization aligns with stable intermediate-layer signals. Moreover, order-matched forward/reverse tests indicate that reversal failures are primarily driven by AR order bias rather than deficient inversion semantics」とのこと。
Recursive Language Models
- Recursive Language Models [14.2]
本稿では,長いプロンプトを外部環境として扱う一般的な推論手法であるRecursive Language Models (RLMs)を提案する。 RLMはモデルウィンドウを超える2桁の処理に成功し、たとえ短いプロンプトであっても、ベースLLMの品質を劇的に上回っていることがわかった。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 03:43:41 GMT) - 「We introduced Recursive Language Models (RLMs), a general inference framework for language models that offloads the input context and enables language models to recursively sub-query lan- guage models before providing an output. We explored an instantiation of this framework that offloads the context into a Python REPL environment as a variable in memory, enabling the LM to reason over its context in code and recursive LM calls, rather than purely in token space.」と外部メモリ的にPython実行環境を使うアプローチの提案。
- 著者のBlog(Recursive Language Models | Alex L. Zhang)やXの投稿(XユーザーのAlex L Zhangさん: 「What if scaling the context windows of frontier LLMs is much easier than it sounds? We’re excited to share our work on Recursive Language Models (RLMs). A new inference strategy where LLMs can decompose and recursively interact with input prompts of seemingly unbounded length, https://t.co/U0tGWmPybl」 / X)も参考になる。
A.X K1, EXAONE, VAETKI, HyperCLOVAX, Solar Open, IQuest Coder, TeleChat3-MoE, SenseNova-MARS
Manusの買収(?)など先週も大きなニュースがあったが、韓国の科学技術情報通信部が独自AI基盤モデル第1回発表会を開催 – ChosunBizは興味深かった。下記のモデルに関する発表があったよう。
- SK Telecom Unveils A.X K1, Korea’s First 500B-Scale Hyperscale AI Model – SK telecom newsroom
- LGAI-EXAONE/K-EXAONE-236B-A23B · Hugging Face
- NC-AI-consortium-VAETKI/VAETKI · Hugging Face
- minpeter/HyperCLOVAX-SEED-Text-Think-32B-hf · Hugging Face
- upstage/Solar-Open-100B · Hugging Face
アップステージのソーラ・オープン100Bが中国モデル類似疑惑で公開検証へ – ChosunBizという指摘もあるようだが、ソブリンAIの開発は重要であるし、また、公開モデルの方向性としても要注目。(何をソブリンAIとして定義するかは悩ましい問題でもある。)
上記とは別に、IQuest Coderのような高性能モデルが公開、TELECHAT3やSenseNova-MARSといった強力なLLM、推論・検索フレームワークについても発表が相次いでおり、今年も熱い状況が続きそう。
- IQuest_Coder_Technical_Report
IQuest-Coder-V1シリーズは、コード大規模言語モデル(LLMs)の新しいファミリーであり、ソフトウェアロジックの動的進化を捉える多段階トレーニングパラダイムを提案しています。このモデルは、事前トレーニングから専門的な中間トレーニング、二つのポストトレーニングパスを経て高度なコードインテリジェンスを実現し、エージェント的なソフトウェアエンジニアリングや競技プログラミングにおいて最先端の性能を達成しています。さらに、リカレントメカニズムを導入したIQuest-Coder-V1-Loopは、モデルの能力と展開サイズの最適化のトレードオフを改善するためのアーキテクチャ的な進化を提供します。
- Training Report of TeleChat3-MoE [77.9]
この技術的レポートは、主に、フロンティアモデルサイズへの信頼性と効率的なスケーリングを可能にする、基礎となるトレーニングインフラストラクチャを提示する。 本稿では,ハードウェアプラットフォーム間の整合性を確保するため,演算子レベルとエンドツーエンドの数値検証精度の体系的手法を詳述する。 解析的推定と整数線形プログラミングを利用した並列化フレームワークも提案され,多次元並列化の構成を最適化する。
論文 参考訳(メタデータ) (Tue, 30 Dec 2025 11:42:14 GMT) - リポジトリはGitHub – Tele-AI/TeleChat3
- SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning [57.1]
SenseNova-MARSは、Multimodal Agentic Reasoning and Searchフレームワークである。 画像検索、テキスト検索、画像収穫ツールを動的に統合し、知識集約型視覚理解の課題に対処する。 SenseNova-MARSは、オープンソースの検索ときめ細かい画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (Tue, 30 Dec 2025 16:31:45 GMT) - リポジトリはGitHub – OpenSenseNova/SenseNova-MARS
Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models
- Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.7]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。 Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 04:25:11 GMT) - 「Youtu-LLM significantly outperforms existing state-of-the-art models of similar scale across both general- purpose (Figure 2) and agentic benchmarks (Figure 1), and in several settings, rivals substantially larger models. Beyond performance gains, our analyses provide the first systematic evidence that agentic pre- training can unlock agent potential in lightweight LLMs, revealing phenomena such as scalable growth of agent capabilities.」と小規模、エージェント向けのモデルの提案。オンデバイスを狙うとエージェント関連の能力を保ったままの小型化が重要であり「We propose a principled training paradigm that enhances native agentic capabilities through innovations in tokenizer design, data allocation, and multi-stage learning, guided by an agent-centric philosophy.」とあるように狙って強化することもできるよう。
- リポジトリはGitHub – TencentCloudADP/youtu-tip: Youtu-Tip: Tap for Intelligence, Keep on Device.、モデルはYoutu – a tencent Collection
GLM 4.7, MiniMax M2.1 , ERNIE-5.0-Preview-1203
先週は中国のフロンティアモデルに関する発表が目立った。マイナーアップデートが多いものの着実な性能アップを実現している。GLM-4.7(XユーザーのZ.aiさん: 「GLM-4.7 is here! GLM-4.7 surpasses GLM-4.6 with substantial improvements in coding, complex reasoning, and tool usage, setting new open-source SOTA standards. It also boosts performance in chat, creative writing, and role-play scenarios. Default Model for Coding Plan: https://t.co/3vDzwof7A8」 / X、リポジトリ:zai-org/GLM-4.7 · Hugging Face)、MiniMax M2.1(XユーザーのMiniMax (official)さん: 「MiniMax M2.1 is OPEN SOURCE: SOTA for real-world dev & agents • SOTA on coding benchmarks (SWE / VIBE / Multi-SWE) • Beats Gemini 3 Pro & Claude Sonnet 4.5 • 10B active / 230B total (MoE) Not just SOTA, faster to infer, easier to deploy, and yes, you can even run it locally https://t.co/atCML3vq8C」 / X、リポジトリ:MiniMaxAI/MiniMax-M2.1 · Hugging Face)ともモデルが公開されているのがすばらしい。ERNIE 5.0(Best Text model from China in LMArena is now ERNIE-5.0-Preview-1203! | ERNIE Blog)も強力そう。
Nemotron3については論文が出ていた。強力な公開モデルが増えており、また、アップデートもされており良い時代である(?)
- NVIDIA Nemotron 3: Efficient and Open Intelligence [227.5]
ネモトロン3シリーズは強力なエージェント、推論、会話能力を提供する。 ネモトロン3モデルは、推論を可能にするマルチ環境強化学習、多段階ツールの使用、きめ細かい推論予算制御のサポートを用いて、後から訓練される。 Nemotron 3ファミリは、Mixture-of-ExpertsハイブリッドのMamba-Transformerアーキテクチャを使用して、最高レベルのスループットと最大100万トークンのコンテキスト長を提供する。
論文 参考訳(メタデータ) (Wed, 24 Dec 2025 00:24:05 GMT) - 「The Nemotron 3 family uses a Mixture-of-Experts hybrid Mamba–Transformer architecture to provide best-in-class throughput and context lengths of up to 1M tokens. 」とMambaハイブリッド、長文対応なモデル。
- Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning [223.9]
Nemotron 3 Nano 30B-A3BはMixture-of-ExpertsハイブリッドMamba-Transformer言語モデルである。 ネモトロン3ナノは25兆個のテキストトークンで事前訓練され、その中にはネモトロン2に3兆以上の新しいユニークなトークンが含まれていた。
論文 参考訳(メタデータ) (Tue, 23 Dec 2025 23:54:32 GMT) - リポジトリはnvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8 · Hugging Face