- How Far Are We from Genuinely Useful Deep Research Agents? [48.6]
Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。 レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。 我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 17:58:59 GMT) - 「Fine-grained DEep- Research bench (FINDER), a fine-grained benchmark designed to evaluate DRAs in a more comprehensive manner. Unlike existing benchmarks, DEFT is built upon 100 expert-curated research tasks with 419 detailed check- list items that guide the structure, analytical depth, and citation integrity of generated reports.」というベンチマークの提案。
- リポジトリはGitHub – OPPO-PersonalAI/FINDER_DEFT: Official implementation for paper “How Far Are We from Genuinely Useful Deep Research Agents?”
MASim: Multilingual Agent-Based Simulation for Social Science
- MASim: Multilingual Agent-Based Simulation for Social Science [68.0]
マルチエージェントロールプレイングは近年,言語エージェントを用いた社会行動研究の公約を示している。 既存のシミュレーションは主に単言語であり、言語間相互作用をモデル化することができない。 我々は、最初の多言語エージェントベースのシミュレーションフレームワークであるMASimを紹介する。
論文 参考訳(メタデータ) (Mon, 08 Dec 2025 06:12:48 GMT) - 「In this work, we explore multilingual agent-based simulation for social science discovery. We begin with the MAPS dataset, which integrates open- domain survey questionnaires with user demo- graphics from global social science surveys. On top of this resource, we develop the MASIM frame- work, which models social-network interactions among cross-country user agents and news agents, and outputs user attitude dynamics for survey questions. Our evaluation examines real-world cali- bration, global sensitivity, and local consistency, which collectively support the framework’s robust- ness and effectiveness.」とマルチリンガル性に特徴を持つマルチエージェントシミュレーションフレームワークの提案。多言語性は文化に関わる部分など重要なポイントのように思う。
Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution
- Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution [52.8]
我々は静的ストレージと動的推論のギャップを埋めるため、$textbfReMe$ ($textitRemember Me, Refine Me$)を提案する。 ReMeは3つのメカニズムを通じてメモリライフサイクルを革新する: $textitmulti-faceted distillation$, きめ細かい経験を抽出する。 BFCL-V3とAppWorldの実験では、ReMeが新しい最先端のエージェントメモリシステムを確立している。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 14:40:01 GMT) - 「The ReMe framework comprises three alternating phases. The system first constructs the initial experience pool from the agent’s past trajectories. For new tasks, relevant experiences are recalled and reorganized to guide agent inference. After task execution, ReMe updates the pool, selectively adding new insights and removing outdated ones.」というMemoryフレームワーク
- リポジトリはGitHub – agentscope-ai/ReMe: ReMe: Memory Management Kit for Agents – Remember Me, Refine Me.
Generative AI for Self-Adaptive Systems: State of the Art and Research Roadmap
- Generative AI for Self-Adaptive Systems: State of the Art and Research Roadmap [38.6]
自己適応システム(SAS)はフィードバックループを通じて変化や不確実性を扱うように設計されている。 GenAIはデータの理解と論理的推論において素晴らしいパフォーマンスを示している。 しかし、SASにおけるGenAIの具体的なメリットと課題は明らかでない。
論文 参考訳(メタデータ) (Thu, 04 Dec 2025 11:13:43 GMT) - Self-adaptive system(「Effective self-adaptation typically relies on a set of four crucial functions or capabilities (i) to monitor their operational environment and their own state; (ii) to analyze the current situation, determine whether the goals are achieved and if not evaluate the options to adapt the system, (iii) to plan an adaptation of the system for the best adaptation option, and (iv) to execute the plan and adapt the system accordingly.」)のサーベイ。
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.4]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。 コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。 一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (Tue, 02 Dec 2025 17:14:33 GMT) - ソフトウェア開発におけるAI活用に関する包括的なサーベイ。
- 1ページ目の図が攻めている一方で納得感もある。
K2-V2: A 360-Open, Reasoning-Enhanced LLM
- K2-V2: A 360-Open, Reasoning-Enhanced LLM [89.7]
K2-V2は,スクラッチから構築した360度オープンLLMで,推論適応のための優れた基盤となる。 これはQwen2.5-72Bを上回り、Qwen3-235Bの性能に近づいている。
論文 参考訳(メタデータ) (Fri, 05 Dec 2025 22:53:45 GMT) - 「We introduce K2, the best fully open-source pretrained large language model (LLM) to date, and ranks competitively against the best open-weight models of its class. As the latest base model in the LLM360 family (Liu et al , 2023; Tao et al , 2024; Liu et al , 2025c; Cheng et al , 2025a), Beyond standard competencies like knowledge and conversation, K2 provides advanced capabilities, including long context consistency, deep mathematical knowledge, and reasoning behaviors. These serve as foundational building blocks that enable sophisticated downstream use cases, such as solving complex math problems and executing agentic workflows.」とオープンかつ強力な性能を主張するLLM
- GitHub – LLM360/k2v2_train: Pre-training codebase for K2-V2、LLM360/K2-V2 · Hugging Faceなどコードやモデルウェイトのみではなくデータなども公開されているよう。
An Empirical Study of Agent Developer Practices in AI Agent Frameworks
- An Empirical Study of Agent Developer Practices in AI Agent Frameworks [59.9]
大規模言語モデル(LLM)の台頭はエージェントへの関心の高まりを引き起こし、エージェントフレームワークの急速な成長につながった。 エージェントフレームワークが広く使われているにもかかわらず、それらの実践的応用とエージェント開発プロセスにどのように影響するかは未解明のままである。 開発者の80%以上が、特定の開発要件に最も適合するフレームワークを特定するのに苦労していると報告している。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 17:52:15 GMT) - エージェントフレームワークのサーベイ。
- 「Specifically, we find that (i) Langchain and CrewAI lower the technical threshold for beginners. (ii) AutoGen and LangChain excel at rapid prototyping. (iii) In terms of functional encapsulation, AutoGen and LangChain are leading in task decomposition and multi-agent collaboration. (iv) Performance optimization is a common shortcoming across all frameworks. (v) Despite their mature ecosystems, AutoGen and LangChain face the highest maintenance complexity.」とのこと。
- メンテナンスについては「6.2.5 Maintainability.」でほとんどのフレームワークが酷評されている・・・
The 2025 Foundation Model Transparency Index
- The 2025 Foundation Model Transparency Index [85.0]
ファウンデーションモデル開発者は世界で最も重要な企業です。 これらの企業がますますコンシークシャルになるにつれて、透明性のプラクティスはどのように進化するのでしょうか? 2025 Foundation Model Transparency Indexは、ファンデーションモデル開発者の透明性を特徴づけ、定量化するための年次取り組みの第3版である。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 00:01:53 GMT) - 基盤モデルの透明性に関する報告。「The 2024 FMTI reported that transparency was improving, but the 2025 FMTI finds this progress has deteriorated: the average score out of 100 fell from 58 in 2024 to 40 in 2025. Companies are most opaque about their training data and training compute as well as the post-deployment usage and impact of their flagship models.」というのは気がかりではある。
- リポジトリはGitHub – stanford-crfm/fmti: The Foundation Model Transparency Index
Scaling Behavior of Discrete Diffusion Language Models
- Scaling Behavior of Discrete Diffusion Language Models [74.7]
離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。 実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。 均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 17:54:10 GMT) - 最近研究が進み応用事例も出てきているDiffusion language modelに対して「Our findings support the case for discrete diffusion language models (DLMs) as a viable alternative to autoregressive language models (ALMs), the prevalent paradigm. DLMs can resolve core limitations of ALMs, enabling parallel generation for improved throughput, possessing the ability to revise and self-correct previously generated tokens, providing trivial ways of scaling test-time compute, and now also showing signs of improved scaling behavior with increased training compute. All in all, we conclude that DLMs in general, and uniform diffusion in particular, are promising candidates for next-generation LLMs.」と主張。
- リポジトリはGitHub – dvruette/gidd-easydel
GPT-5.2, Devstral 2, GLM-4.6V, Olmo 3.1
先週の大きなニュースはGPT-5.2の登場だった(GPT-5.2 が登場 | OpenAI、gpt-5.2 Model | OpenAI API)非常に強力なモデルであり、Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR – arXiv最新論文の紹介のGemini 3 Proを多くのベンチマークで抜き返すなど競争が続いている。
実態は第三者検証待ちといったところだが、手元のベンチマークでは性能が上がったところと下がったところがあり、評価は難しい。10年 | OpenAIにも注目でここ数年で大きな変化をもたらしたこと、AGIを目指せる状況になっているのは凄い。
GPT-5.2以外にも、Devstral 2(Introducing: Devstral 2 and Mistral Vibe CLI. | Mistral AI、mistralai/Devstral-2-123B-Instruct-2512 · Hugging Faceなど)やGLM-4.6V(GLM-4.6V: Open Source Multimodal Models with Native Tool Use、zai-org/GLM-4.6V · Hugging Face)、Olmo 3.1(XユーザーのAi2さん: 「Olmo 3.1 is here. We extended our strongest RL run and scaled our instruct recipe to 32B—releasing Olmo 3.1 Think 32B & Olmo 3.1 Instruct 32B, our most capable models yet. 🧵 https://t.co/i8Ia5yGJoI」 / X)など公開モデル関連でも注目するニュースが多い。