- GLM-5: from Vibe Coding to Agentic Engineering [223.2]
GLM-5は,バイブ符号化のパラダイムをエージェント工学に移行するために設計された次世代基盤モデルである。 GLM-5は、前任者のエージェント、推論、コーディング(ARC)能力に基づいており、長いコンテキストの忠実さを維持しながら、トレーニングと推論のコストを大幅に削減するためにDSAを採用している。
論文 参考訳(メタデータ) (Tue, 17 Feb 2026 17:50:56 GMT) - GLMの最新モデル、744B / 40B Activeの構成、使用した学習データ量も28.5TBに増加。フロンティアモデルと呼べる性能。先週はQwen/Qwen3.5-397B-A17B · Hugging Faceも話題となった。商用モデルでもGemini 3.1 Pro、Sonnet 4.6の公開もあり、また、OpenAIの対抗も噂されている。性能の向上が続いている。
- タイトルの「from Vibe Coding to Agentic Engineering」は「We describe the transition from vibe coding (human prompting) to agentic engineering. In vibe coding, a human prompts an AI model to write code. In agentic engineering, AI agents write the code themselves. They plan, implement, and iterate.」と解説されている。
- リポジトリはGitHub – zai-org/GLM-5: GLM-5: From Vibe Coding to Agentic Engineering
タグ: LLM
AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
- AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.5]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。 エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。 AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (Mon, 26 Jan 2026 13:45:41 GMT) - 「AgentDoG provides fine-grained and contextual monitoring across agents’ trajectories, including malicious tool execution and prompt injection. More crucially, AgentDoG provides a more transparent perspective to understand why an agent takes a particular action in an unsafe or seemingly safe but unreasonible way,」と軌跡レベルで評価していく高性能なガードレールの提案。この分野の外観を知るにも良い論文だと思う。
- リポジトリはGitHub – AI45Lab/AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
LongCat-Flash-Thinking-2601 Technical Report
- LongCat-Flash-Thinking-2601 Technical Report [134.9]
LongCat-Flash-Thinking-2601はオープンソースのMixture-of-Experts (MoE)推論モデルである。 LongCat-Flash-Thinking-2601は、幅広いエージェントベンチマーク上で、オープンソースモデル間の最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (Fri, 23 Jan 2026 13:20:09 GMT) - 非常に高性能なKIMI K 2.5(Kimi K2.5: Visual Agentic Intelligence | Technical Report、GitHub – meituan-longcat/LongCat-Flash-Thinking-2601)の発表もあったがLongCatからも最新モデルのテクニカレポートが公表されている。
- モデルはmeituan-longcat/LongCat-Flash-Thinking-2601 · Hugging Face
HumanLLM: Towards Personalized Understanding and Simulation of Human Nature
- HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.6]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。 私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。 次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (Thu, 22 Jan 2026 09:27:27 GMT) - 「we introduce HumanLLM, a foundation model specifically designed to advance the personalized understanding and simulation of human cognition and behaviors.」と近年流行りつつあるLLM basedな社会シミュレーションのためのモデルの提案。「Extensive experiments across in-domain tasks, out-of-domain benchmarks, and real-world applications demonstrate that HumanLLM is a superior social data generator, human explainer, and user simulator. 」と有効性を主張。
- リポジトリはAnonymized Repository – Anonymous GitHub、https://aka.ms/humanllm
Agentic Confidence Calibration
- Agentic Confidence Calibration [67.5]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。 HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。 HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (Thu, 22 Jan 2026 09:08:25 GMT) - 「Our work addresses compounding uncertainty, heterogeneous signals, and data scarcity, yielding three key takeaways: (1) calibration relies on a hierarchy of diagnostic signals; (2) HTC features capture a transferable “uncertainty patterns” enabling strong cross-task generalization while exposing limits under distribution shift; and (3) a pretrained General Agent Calibrator (GAC) achieves the best ECE (zero-shot) on unseen tasks like GAIA, providing a plug-and-play foundation.」とエージェントの信頼度を総合的に評価していくフレームワーク
What Matters For Safety Alignment?
- What Matters For Safety Alignment? [38.9]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。 本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。 LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (Wed, 07 Jan 2026 12:31:52 GMT) - 「We systematically investigate and compare the influence of six critical intrinsic model characteristics and three external attack techniques. Our large-scale evaluation is conducted using 32 recent, popular LLMs and LRMs across thirteen distinct model families, spanning a parameter scale from 3B to 235B.」と安全性からのLLM/LRMの評価。「The top-three safest families OpenAI GPT-OSS [5], Alibaba Qwen3-Next [27], and Google Gemma-3 [28] are dramatically safer than the top-three most vulnerable Deepseek- R1Distilled [2], Mistral-v0.3 [29], and Seed-OSS [30] families. These disparities can be interpreted as indicators of varying institutional investments in safety research and relative maturity in model training pipelines and infrastructures.」としている。
- 基本的のは公開モデルが対象のよう。
Ministral 3, Molmo2, STEP3-VL
OpenAIの広告モデル(ChatGPT Go が登場、世界中で利用可能に | OpenAI)、LLMインタフェースのオープンな仕様(Open Responses、XユーザーのOpenAI Developersさん: 「Today we’re announcing Open Responses: an open-source spec for building multi-provider, interoperable LLM interfaces built on top of the original OpenAI Responses API. ✅ Multi-provider by default ✅ Useful for real-world workflows ✅ Extensible without fragmentation Build https://t.co/SJiBFx1BOF」 / X)、AnthropicのCowork(Introducing Cowork | Claude)、Appleの基盤モデルにGeminiが採用?などビジネス的に興味深いニュースが多かった。
オープンなモデルだとMinistral3やMolmo2、STEP3-VL-10BとMLLM関連の論文発表があった。いずれもサイズと性能のバランスが良く、期待が持てる。
広範なモデルを検証しているA Safety Reportにも要注目。
- Ministral 3 [159.0]
Ministral 3は、計算およびメモリ制約のあるアプリケーションのためのパラメータ効率の高い高密度言語モデルのファミリーである。 汎用目的のための事前訓練されたベースモデル、微調整された命令モデル、複雑な問題解決のための推論モデルである。 各モデルはイメージ理解機能を備えており、すべてApache 2.0ライセンスで提供されている。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 14:06:03 GMT) - Mistralからの発表。「A key component of Ministral 3 is our Cascade Distillation training strategy, an iterative pruning and distillation method, which progressively transfers pretrained knowledge from a large parent model down to a family of compact children models. Our recipe allows us to achieve performance that is competitive with models which had a much larger training budget.」とのこと
- プロジェクトサイトはIntroducing Mistral 3 | Mistral AI、モデルはMinistral 3 – a mistralai Collection
- Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding [73.5]
Molmo2はビデオ言語モデル(VLM)の新たなファミリーであり、オープンソースモデルの中でも最先端の製品である。 単一画像、マルチイメージ、ビデオタスクにおけるポイント駆動グラウンドリングにおいて、例外的な新機能を示す。 私たちの最高の8Bモデルは、ショートビデオ、カウント、キャプションでオープンウェイトとデータモデルのクラスで他よりも優れており、ロングビデオでは競争力があります。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 17:27:44 GMT) - Ai2の最新VLM、ver1から大きく性能を上げている。
- リポジトリはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model、モデルはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model
- STEP3-VL-10B Technical Report [115.9]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。 そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。 MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 17:06:04 GMT) - 小規模ながら強力な性能のVLM。Qwen3 VL 235B A22に匹敵と主張。
- プロジェクトサイトはStep3-VL-10B: Compact Yet Frontier Multimodal Intelligence、モデルはstepfun-ai/Step3-VL-10B · Hugging Face
- A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4]
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5。 ベンチマーク評価,対角評価,多言語評価,コンプライアンス評価を統合した統一プロトコルを用いて,言語,視覚言語,画像生成設定の各モデルを評価する。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 15:52:52 GMT) - 「In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We eval- uate each model across language, vision–language, and image generation settings us- ing a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation.」とMLLMや画像生成モデルに関する安全性評価。VLMとしてはGPT-5.2のスコアはさすがといったところ。
- プロジェクトサイトはSafety Report: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Nano Banana Pro, Seedream 4.5
MiMo-V2-Flash, K-EXAONE
- MiMo-V2-Flash Technical Report [101.1]
我々は309Bの総パラメータと15Bのアクティブパラメータを持つMixture-of-Experts(MoE)モデルであるMiMo-V2-Flashを提案する。 MiMo-V2-Flashは、スライディングウインドウ・アテンション(SWA)をインターリーブするハイブリッドアテンションアーキテクチャを採用している。 このモデルは、Multi-Token Prediction (MTP)で27兆トークンで事前トレーニングされ、ネイティブ32kコンテキスト長を使用し、256kまで拡張された。
論文 参考訳(メタデータ) (Thu, 08 Jan 2026 05:52:17 GMT) - Xiaomiによる高効率なLLM/LRM。pre trainingのトークン量も多い。Gemini 3のときも指摘されていたが、データ側のスケーリングの有効性がいまだ続いていそうな印象を受ける。
- リポジトリはGitHub – XiaomiMiMo/MiMo-V2-Flash: MiMo-V2-Flash: Efficient Reasoning, Coding, and Agentic Foundation Model
- K-EXAONE Technical Report [76.2]
K-EXAONEはLG AI Researchが開発した大規模多言語言語モデルである。 256Kのコンテキストウィンドウをサポートし、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語をカバーしている。 我々はK-EXAONEを、推論、エージェント、一般、韓国語、多言語能力にまたがる総合的なベンチマークスイートで評価した。
論文 参考訳(メタデータ) (Mon, 05 Jan 2026 02:30:59 GMT) - K EXAONEのテクニカルレポート。236B(active 23B)と規模が大きいとはいえ、gpt-oss-120B highよりも(概ね)高い性能を出せている。
- リポジトリはGitHub – LG-AI-EXAONE/K-EXAONE: Official repository for K-EXAONE built by LG AI Research
Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs
- Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs [43.4]
本稿では,対称/逆三重項からテキストを生成する合成フレームワークを提案し,GPTスタイルの自己回帰モデルをスクラッチから訓練し,記憶,論理推論,文脈内一般化を評価する。 浅層(2-3層)モデルにおいても,関係性セマンティクスが十分な論理量制御によって出現し,その一般化が安定な中間層信号と一致していることが判明した。
論文 参考訳(メタデータ) (Tue, 06 Jan 2026 11:20:38 GMT) - AutoregressiveなLMにおいて「単に覚える」から一般化されるまでの状況を分析した非常に興味深い研究。「In our results, we observe a sharp phase transition in which relational semantics emerge with sufficient logic-bearing supervision, even in shallow (2–3 layer) models, and successful generalization aligns with stable intermediate-layer signals. Moreover, order-matched forward/reverse tests indicate that reversal failures are primarily driven by AR order bias rather than deficient inversion semantics」とのこと。
Recursive Language Models
- Recursive Language Models [14.2]
本稿では,長いプロンプトを外部環境として扱う一般的な推論手法であるRecursive Language Models (RLMs)を提案する。 RLMはモデルウィンドウを超える2桁の処理に成功し、たとえ短いプロンプトであっても、ベースLLMの品質を劇的に上回っていることがわかった。
論文 参考訳(メタデータ) (Wed, 31 Dec 2025 03:43:41 GMT) - 「We introduced Recursive Language Models (RLMs), a general inference framework for language models that offloads the input context and enables language models to recursively sub-query lan- guage models before providing an output. We explored an instantiation of this framework that offloads the context into a Python REPL environment as a variable in memory, enabling the LM to reason over its context in code and recursive LM calls, rather than purely in token space.」と外部メモリ的にPython実行環境を使うアプローチの提案。
- 著者のBlog(Recursive Language Models | Alex L. Zhang)やXの投稿(XユーザーのAlex L Zhangさん: 「What if scaling the context windows of frontier LLMs is much easier than it sounds? We’re excited to share our work on Recursive Language Models (RLMs). A new inference strategy where LLMs can decompose and recursively interact with input prompts of seemingly unbounded length, https://t.co/U0tGWmPybl」 / X)も参考になる。