- K2-V2: A 360-Open, Reasoning-Enhanced LLM [89.7]
K2-V2は,スクラッチから構築した360度オープンLLMで,推論適応のための優れた基盤となる。 これはQwen2.5-72Bを上回り、Qwen3-235Bの性能に近づいている。
論文 参考訳(メタデータ) (Fri, 05 Dec 2025 22:53:45 GMT) - 「We introduce K2, the best fully open-source pretrained large language model (LLM) to date, and ranks competitively against the best open-weight models of its class. As the latest base model in the LLM360 family (Liu et al , 2023; Tao et al , 2024; Liu et al , 2025c; Cheng et al , 2025a), Beyond standard competencies like knowledge and conversation, K2 provides advanced capabilities, including long context consistency, deep mathematical knowledge, and reasoning behaviors. These serve as foundational building blocks that enable sophisticated downstream use cases, such as solving complex math problems and executing agentic workflows.」とオープンかつ強力な性能を主張するLLM
- GitHub – LLM360/k2v2_train: Pre-training codebase for K2-V2、LLM360/K2-V2 · Hugging Faceなどコードやモデルウェイトのみではなくデータなども公開されているよう。
投稿者: staka
An Empirical Study of Agent Developer Practices in AI Agent Frameworks
- An Empirical Study of Agent Developer Practices in AI Agent Frameworks [59.9]
大規模言語モデル(LLM)の台頭はエージェントへの関心の高まりを引き起こし、エージェントフレームワークの急速な成長につながった。 エージェントフレームワークが広く使われているにもかかわらず、それらの実践的応用とエージェント開発プロセスにどのように影響するかは未解明のままである。 開発者の80%以上が、特定の開発要件に最も適合するフレームワークを特定するのに苦労していると報告している。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 17:52:15 GMT) - エージェントフレームワークのサーベイ。
- 「Specifically, we find that (i) Langchain and CrewAI lower the technical threshold for beginners. (ii) AutoGen and LangChain excel at rapid prototyping. (iii) In terms of functional encapsulation, AutoGen and LangChain are leading in task decomposition and multi-agent collaboration. (iv) Performance optimization is a common shortcoming across all frameworks. (v) Despite their mature ecosystems, AutoGen and LangChain face the highest maintenance complexity.」とのこと。
- メンテナンスについては「6.2.5 Maintainability.」でほとんどのフレームワークが酷評されている・・・
The 2025 Foundation Model Transparency Index
- The 2025 Foundation Model Transparency Index [85.0]
ファウンデーションモデル開発者は世界で最も重要な企業です。 これらの企業がますますコンシークシャルになるにつれて、透明性のプラクティスはどのように進化するのでしょうか? 2025 Foundation Model Transparency Indexは、ファンデーションモデル開発者の透明性を特徴づけ、定量化するための年次取り組みの第3版である。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 00:01:53 GMT) - 基盤モデルの透明性に関する報告。「The 2024 FMTI reported that transparency was improving, but the 2025 FMTI finds this progress has deteriorated: the average score out of 100 fell from 58 in 2024 to 40 in 2025. Companies are most opaque about their training data and training compute as well as the post-deployment usage and impact of their flagship models.」というのは気がかりではある。
- リポジトリはGitHub – stanford-crfm/fmti: The Foundation Model Transparency Index
Scaling Behavior of Discrete Diffusion Language Models
- Scaling Behavior of Discrete Diffusion Language Models [74.7]
離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。 実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。 均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 17:54:10 GMT) - 最近研究が進み応用事例も出てきているDiffusion language modelに対して「Our findings support the case for discrete diffusion language models (DLMs) as a viable alternative to autoregressive language models (ALMs), the prevalent paradigm. DLMs can resolve core limitations of ALMs, enabling parallel generation for improved throughput, possessing the ability to revise and self-correct previously generated tokens, providing trivial ways of scaling test-time compute, and now also showing signs of improved scaling behavior with increased training compute. All in all, we conclude that DLMs in general, and uniform diffusion in particular, are promising candidates for next-generation LLMs.」と主張。
- リポジトリはGitHub – dvruette/gidd-easydel
GPT-5.2, Devstral 2, GLM-4.6V, Olmo 3.1
先週の大きなニュースはGPT-5.2の登場だった(GPT-5.2 が登場 | OpenAI、gpt-5.2 Model | OpenAI API)非常に強力なモデルであり、Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR – arXiv最新論文の紹介のGemini 3 Proを多くのベンチマークで抜き返すなど競争が続いている。
実態は第三者検証待ちといったところだが、手元のベンチマークでは性能が上がったところと下がったところがあり、評価は難しい。10年 | OpenAIにも注目でここ数年で大きな変化をもたらしたこと、AGIを目指せる状況になっているのは凄い。
GPT-5.2以外にも、Devstral 2(Introducing: Devstral 2 and Mistral Vibe CLI. | Mistral AI、mistralai/Devstral-2-123B-Instruct-2512 · Hugging Faceなど)やGLM-4.6V(GLM-4.6V: Open Source Multimodal Models with Native Tool Use、zai-org/GLM-4.6V · Hugging Face)、Olmo 3.1(XユーザーのAi2さん: 「Olmo 3.1 is here. We extended our strongest RL run and scaled our instruct recipe to 32B—releasing Olmo 3.1 Think 32B & Olmo 3.1 Instruct 32B, our most capable models yet. 🧵 https://t.co/i8Ia5yGJoI」 / X)など公開モデル関連でも注目するニュースが多い。
Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing
- Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing [83.5]
我々は、人間のサイバーセキュリティ専門家に対するAIエージェントの包括的な評価を初めて提示する。 我々は、既存の6人のAIエージェントと、新しいエージェントの足場であるARTEMISとともに、10人のサイバーセキュリティ専門家を評価します。 ARTEMISは総合的に第2位で、9つの有効な脆弱性と82%の有効な提出率を発見した。
論文 参考訳(メタデータ) (Wed, 10 Dec 2025 18:12:29 GMT) - 「We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six existing AI agents and ARTEMIS, our new agent scaffold, on a large university network consisting of ∼8,000 hosts across 12 subnets. ARTEMIS is a multi-agent framework featuring dynamic prompt generation, arbitrary sub-agents, and automatic vulnerability triaging. In our comparative study, ARTEMIS placed second overall, discovering 9 valid vulnerabilities with an 82% valid submission rate and outperforming 9 of 10 human participants.」とAIエージェント vs 人間の比較。このような分析は今後も様々な分野で実施されていくのだと思いつつ、どのように役割分担していくのか(将来的に人間に残される要素はあるのか)など気になるところ。
- リポジトリはGitHub – Stanford-Trinity/ARTEMIS、プロジェクトサイトはTrinity – Stanford Research
Towards a Science of Scaling Agent Systems
- Towards a Science of Scaling Agent Systems [79.6]
エージェント、言語モデル(LM)ベースのシステムでは、推論、計画、行動が現実のAIアプリケーションの主要なパラダイムになりつつある。 この広く採用されているにもかかわらず、彼らのパフォーマンスを決定する原則は未定のままである。 エージェントシステムのスケーリング原理を導出することで、このギャップに対処する。
論文 参考訳(メタデータ) (Tue, 09 Dec 2025 06:52:21 GMT) - マルチエージェント化に利点があるのか?が興味深い論文。「We reveal that multi-agent performance exhibits an inverted-U relationship with coordination complexity, with benefits diminishing beyond moderate coordination levels. Domain complexity emerges as the strongest performance predictor (𝛽= −0.114, 𝑝< 0.002), reducing MAS advantage more substantially than architectural choices. Performance gains vary dramatically by task structure: +80.9% on Finance Agent versus −70.0% on PlanCraft, indicating that coordination benefits depend tightly on task decomposability.」と納得感がある(というかそうだよねという)結果
EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs
- EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs [53.4]
EventBenchは8つのタスクメトリクスと大規模なイベントストリームデータセットを提供するベンチマークである。 我々は、GPT-5やGemini-2.5 Proのような最先端のクローズドソースモデル、Qwen2.5-VLやInternVL3といったオープンソースモデル、EventGPTのようなイベントベースのMLLMを評価した。
論文 参考訳(メタデータ) (Sun, 23 Nov 2025 13:39:01 GMT) - MLLMのイベントに対する評価(understanding (i.e., detailed understanding), recognition (i.e., action recognition, gesture recognition, and event OCR)など)ベンチマーク。
- リポジトリはEventBench
InnoGym: Benchmarking the Innovation Potential of AI Agents
- InnoGym: Benchmarking the Innovation Potential of AI Agents [74.6]
InnoGymはAIエージェントのイノベーションの可能性を評価するために設計された最初のベンチマークである。 InnoGymは2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 16:03:04 GMT) - 「InnoGym consists of two complementary components: iBench, a benchmark designed to evaluate innovation capability, and iGym, a unified development and execution environment. iBench covers 18 carefully curated tasks drawn from real-world engineering and theoretical problems. We focus only on Improvable Tasks, which leave clear room for improvement in both solution quality and methodology.」というAIエージェントがイノベーションを起こせるかを計測しようとするベンチマーク
- リポジトリはhttps://github.com/zjunlp/igym
H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons
- H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons [56.3]
大型言語モデル(LLM)における幻覚関連ニューロン(H-Neurons)の同定 同定の面では、驚くほどスパースなニューロンのサブセットが幻覚の発生を確実に予測できることが示される。 行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 15:32:14 GMT) - 「Our investigation reveals that a remarkably sparse subset of neurons – comprising less than 0.1% of the model’s total neurons – can accurately predict whether the model will produce hallucinated responses. We refer to these predictive neurons as H-Neurons.」、「Our neuron-centric investigation reveals that hallucinations are rooted in the model’s computational architecture and training objectives. 」など興味深い指摘。