- Adaptation of Agentic AI [162.6]
我々は、急速に拡大する研究環境を、エージェント適応とツール適応の両方にまたがる体系的な枠組みに統一する。 エージェントAIにおける適応戦略の設計空間を明らかにする上で,本フレームワークが有効であることを示す。 次に、各カテゴリの代表的アプローチをレビューし、その強みと限界を分析し、主要なオープン課題と今後の機会を強調します。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 08:38:51 GMT) - AIエージェントに関するサーベイ。「The transition from static foundation models to autonomous agentic systems marks a fundamental shift in artificial intelligence, moving from passive response generation to active and multi-step problem solving. As these systems are deployed in increasingly complex and open-ended environments, the ability to adapt to refine behavior, master new tools, and align with specific tasks has become the primary driver of reliability and performance.」を「(A1) Agent Adaptation with Tool Execution Signal, (A2) Agent Adaptation with Agent Output Signal, (T1) Agent-Agnostic Tool Adaptation, and (T2) Agent-Supervised Tool Adaptation.」軸で整理。メリデメがあるので「Looking forward, the advancement of agentic AI depends on the strategic integration of these paradigms rather than their isolation.」というのはそうだろうと思う。
- リポジトリはGitHub – pat-jj/Awesome-Adaptation-of-Agentic-AI: Repo for “Adaptation of Agentic AI”
タグ: Autonomous Agent
OpenAI GPT Image-1.5, Gemini 3.0 Flash, Nemotron 3, Xiaomi MiMo-V2-Flash, Olmo 3(論文), Bolmo, LLaDA2.0, Step-GUI, Seedance 1.5 pro, Kling-Omni
OpenAIとGoogleの競争は激しく、OpenAIからはNanoBananaに対抗すると見込まれるGPT Image-1.5が発表された(GPT Image 1.5 Model | OpenAI API)。Googleからはコスパに優れるGemini 3.0 Flash(Introducing Gemini 3 Flash: Benchmarks, global availability)が出ている。とてもコストが安いが一部ベンチマークではProを超えているようにも見え、コスパが高い。
オープン系のモデルでも、Nemotron 3(NVIDIA Nemotron 3 Family of Models – NVIDIA Nemotron)、Xiaomi MiMo-V2-Flash(Xiaomi MiMo、XユーザーのXiaomiMiMoさん: 「⚡ Faster than Fast. Designed for Agentic AI. Introducing Xiaomi MiMo-V2-Flash — our new open-source MoE model: 309B total params, 15B active. Blazing speed meets frontier performance. 🔥 Highlights: 🏗️ Hybrid Attention: 5:1 interleaved 128-window SWA + Global | 256K context 📈 https://t.co/yCqP4L8bU4」 / X)、Step-GUI(GELab-Zero – GUI Agent for Mobile Devices)など注目すべき発表があった。Ai2からはOlmo3に関する論文が出ているほか、byte-level language modelという興味深いモデルも発表されている。新たなモデルという観点は規模の大きなDiffusion Language Models、LLaDA2.0にも要注目である。
動画関連でもSeedance 1.5 proや Kling-Omniのテクニカルレポートが発表されている。
- Step-GUI Technical Report [83.9]
本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。 また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。 エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 13:26:30 GMT) - 「we introduce a self-evolving training pipeline centered on the Calibrated Step Reward System (CSRS).」、「The system consists of a Calibration Layer that performs trajectory-level validation (success/failure) and a Data Extraction module powered by thinking models that generates seven categories of structured training data. Model-generated trajectories flow through CSRS in an iterative loop: rollout generates trajectories, CSRS processes them into high-quality training data, and training produces stronger models for the next iteration.」と凝ったパイプライン。7つのカテゴリのデータとは「(1) progress tracking, (2) state summary, (3) effect prediction, (4) self-reflection, (5) state verification, (6) intent execution, and (7) action prediction」を指す。
- リポジトリはGitHub – stepfun-ai/gelab-zero: GELab: GUI Exploration Lab. One of the best GUI agent solutions in the galaxy, built by the StepFun-GELab team and powered by Step’s research capabilities.
- Olmo 3 [195.4]
Olmo 3は、7Bおよび32Bパラメータスケールの最先端で完全にオープンな言語モデルのファミリーである。 私たちのフラッグシップモデルであるOlmo 3 Think 32Bは、これまでリリースされた中で最強の完全オープンな思考モデルです。
論文 参考訳(メタデータ) (Mon, 15 Dec 2025 23:41:48 GMT) - Olmo3の論文。論文を出すのが間に合っていないくらい進展が速い・・・
- データやトレーニングログなど、モデルだけでなく様々な部分が公開されている。
- Bolmo: Byteifying the Next Generation of Language Models [115.3]
競合する完全オープンなバイトレベル言語モデル(LM)の最初のファミリーであるBolmoを紹介します。 バイト化はサブワードトークン化の限界を克服する。 我々はBolmoがサブワードレベルのLMと競合する推論速度を実現できることを示す。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 16:46:11 GMT) - バイトレベルの言語モデル。相応の規模で検証したのがすごい。
- リポジトリはGitHub – allenai/bolmo-core: Code for Bolmo: Byteifying the Next Generation of Language Models
- LLaDA2.0: Scaling Up Diffusion Language Models to 100B [96.8]
LLaDA2.0 – 離散拡散大言語モデル(dLLM)を100億の総パラメータにスケールアップする。 LLaDA2.0は知識継承、進歩的適応、効率性に配慮した設計原則を支持している。 LLaDA2.0-mini (16B) と LLaDA2.0-flash (100B) の2つの命令調整型Mixture-of-Experts (MoE) が実用的展開に最適化されている。
論文 参考訳(メタデータ) (Wed, 10 Dec 2025 09:26:18 GMT) - ARから変換していくアプローチによるDiffusion Language Modelの構築。「Through extensive evaluations, it validates the feasibility of the training paradigm. The LLaDA2.0-mini and LLaDA2.0-flash models achieve performances that are competitive with their AR counterparts. Slightly surprisingly, LLaDA2.0-flash seems to have demonstrated advantages in complex, structured domains such as code generation, mathematical reasoning, and agentic tool use. These may have opened a new door to future work in the agentic LLM era while solidifying a gaugeable potential of dLLM for test-time scaling.」と効果および利点を報告している。
- リポジトリはLLaDA 2.0 – a inclusionAI Collection
- Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model [144.6]
Seedance 1.5 Proは、ネイティブのジョイントオーディオビデオ生成用に特別に設計された基礎モデルである。 Seedance 1.5 Proは、正確な多言語と方言のリップシンク、ダイナミックシネマカメラコントロール、物語のコヒーレンスの向上を通じて、自分自身を区別する。
論文 参考訳(メタデータ) (Mon, 15 Dec 2025 16:36:52 GMT) - 「we present Seedance 1.5 pro, a foundational model engineered specifically for native, joint audio-video generation.」
- リポジトリはSeedance 1.5 pro
- Kling-Omni Technical Report [80.6]
Kling-Omniはマルチモーダルな視覚言語入力から直接高忠実度動画を合成するための生成フレームワークである。 Kling-Omniは、多様なビデオ生成、編集、インテリジェントな推論タスク間の機能的分離を橋渡しする。 テキスト命令、参照画像、ビデオコンテキストを含む多様なユーザ入力をサポートし、それらを統一されたマルチモーダル表現に処理する。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 17:08:12 GMT) - Kling AI: Next-Gen AI Video & AI Image Generator
MASim: Multilingual Agent-Based Simulation for Social Science
- MASim: Multilingual Agent-Based Simulation for Social Science [68.0]
マルチエージェントロールプレイングは近年,言語エージェントを用いた社会行動研究の公約を示している。 既存のシミュレーションは主に単言語であり、言語間相互作用をモデル化することができない。 我々は、最初の多言語エージェントベースのシミュレーションフレームワークであるMASimを紹介する。
論文 参考訳(メタデータ) (Mon, 08 Dec 2025 06:12:48 GMT) - 「In this work, we explore multilingual agent-based simulation for social science discovery. We begin with the MAPS dataset, which integrates open- domain survey questionnaires with user demo- graphics from global social science surveys. On top of this resource, we develop the MASIM frame- work, which models social-network interactions among cross-country user agents and news agents, and outputs user attitude dynamics for survey questions. Our evaluation examines real-world cali- bration, global sensitivity, and local consistency, which collectively support the framework’s robust- ness and effectiveness.」とマルチリンガル性に特徴を持つマルチエージェントシミュレーションフレームワークの提案。多言語性は文化に関わる部分など重要なポイントのように思う。
Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution
- Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution [52.8]
我々は静的ストレージと動的推論のギャップを埋めるため、$textbfReMe$ ($textitRemember Me, Refine Me$)を提案する。 ReMeは3つのメカニズムを通じてメモリライフサイクルを革新する: $textitmulti-faceted distillation$, きめ細かい経験を抽出する。 BFCL-V3とAppWorldの実験では、ReMeが新しい最先端のエージェントメモリシステムを確立している。
論文 参考訳(メタデータ) (Thu, 11 Dec 2025 14:40:01 GMT) - 「The ReMe framework comprises three alternating phases. The system first constructs the initial experience pool from the agent’s past trajectories. For new tasks, relevant experiences are recalled and reorganized to guide agent inference. After task execution, ReMe updates the pool, selectively adding new insights and removing outdated ones.」というMemoryフレームワーク
- リポジトリはGitHub – agentscope-ai/ReMe: ReMe: Memory Management Kit for Agents – Remember Me, Refine Me.
An Empirical Study of Agent Developer Practices in AI Agent Frameworks
- An Empirical Study of Agent Developer Practices in AI Agent Frameworks [59.9]
大規模言語モデル(LLM)の台頭はエージェントへの関心の高まりを引き起こし、エージェントフレームワークの急速な成長につながった。 エージェントフレームワークが広く使われているにもかかわらず、それらの実践的応用とエージェント開発プロセスにどのように影響するかは未解明のままである。 開発者の80%以上が、特定の開発要件に最も適合するフレームワークを特定するのに苦労していると報告している。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 17:52:15 GMT) - エージェントフレームワークのサーベイ。
- 「Specifically, we find that (i) Langchain and CrewAI lower the technical threshold for beginners. (ii) AutoGen and LangChain excel at rapid prototyping. (iii) In terms of functional encapsulation, AutoGen and LangChain are leading in task decomposition and multi-agent collaboration. (iv) Performance optimization is a common shortcoming across all frameworks. (v) Despite their mature ecosystems, AutoGen and LangChain face the highest maintenance complexity.」とのこと。
- メンテナンスについては「6.2.5 Maintainability.」でほとんどのフレームワークが酷評されている・・・
Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing
- Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing [83.5]
我々は、人間のサイバーセキュリティ専門家に対するAIエージェントの包括的な評価を初めて提示する。 我々は、既存の6人のAIエージェントと、新しいエージェントの足場であるARTEMISとともに、10人のサイバーセキュリティ専門家を評価します。 ARTEMISは総合的に第2位で、9つの有効な脆弱性と82%の有効な提出率を発見した。
論文 参考訳(メタデータ) (Wed, 10 Dec 2025 18:12:29 GMT) - 「We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six existing AI agents and ARTEMIS, our new agent scaffold, on a large university network consisting of ∼8,000 hosts across 12 subnets. ARTEMIS is a multi-agent framework featuring dynamic prompt generation, arbitrary sub-agents, and automatic vulnerability triaging. In our comparative study, ARTEMIS placed second overall, discovering 9 valid vulnerabilities with an 82% valid submission rate and outperforming 9 of 10 human participants.」とAIエージェント vs 人間の比較。このような分析は今後も様々な分野で実施されていくのだと思いつつ、どのように役割分担していくのか(将来的に人間に残される要素はあるのか)など気になるところ。
- リポジトリはGitHub – Stanford-Trinity/ARTEMIS、プロジェクトサイトはTrinity – Stanford Research
Towards a Science of Scaling Agent Systems
- Towards a Science of Scaling Agent Systems [79.6]
エージェント、言語モデル(LM)ベースのシステムでは、推論、計画、行動が現実のAIアプリケーションの主要なパラダイムになりつつある。 この広く採用されているにもかかわらず、彼らのパフォーマンスを決定する原則は未定のままである。 エージェントシステムのスケーリング原理を導出することで、このギャップに対処する。
論文 参考訳(メタデータ) (Tue, 09 Dec 2025 06:52:21 GMT) - マルチエージェント化に利点があるのか?が興味深い論文。「We reveal that multi-agent performance exhibits an inverted-U relationship with coordination complexity, with benefits diminishing beyond moderate coordination levels. Domain complexity emerges as the strongest performance predictor (𝛽= −0.114, 𝑝< 0.002), reducing MAS advantage more substantially than architectural choices. Performance gains vary dramatically by task structure: +80.9% on Finance Agent versus −70.0% on PlanCraft, indicating that coordination benefits depend tightly on task decomposability.」と納得感がある(というかそうだよねという)結果
InnoGym: Benchmarking the Innovation Potential of AI Agents
- InnoGym: Benchmarking the Innovation Potential of AI Agents [74.6]
InnoGymはAIエージェントのイノベーションの可能性を評価するために設計された最初のベンチマークである。 InnoGymは2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 16:03:04 GMT) - 「InnoGym consists of two complementary components: iBench, a benchmark designed to evaluate innovation capability, and iGym, a unified development and execution environment. iBench covers 18 carefully curated tasks drawn from real-world engineering and theoretical problems. We focus only on Improvable Tasks, which leave clear room for improvement in both solution quality and methodology.」というAIエージェントがイノベーションを起こせるかを計測しようとするベンチマーク
- リポジトリはhttps://github.com/zjunlp/igym
Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning
- Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning [102.1]
ThinkMergeは、トレーニング不要でプラグ&プレイのデコード戦略だ。 並列推論トレースをKで実行し、同期点における次のTokenロジットを平均化し、単一のコヒーレントな出力を生成する。
論文 参考訳(メタデータ) (Tue, 02 Dec 2025 15:35:31 GMT) - 「(i) generate K diverse reasoning traces up to a delimiter token, e g </think> (ii) after the delimiter, decode one shared answer sequence by averaging the next- token logits across all K reasoning contexts at every autoregressive step.」という複数の思考を束ねるTHINKMERGEの提案、性能向上を確認とのこと。
Are Your Agents Upward Deceivers?
- Are Your Agents Upward Deceivers? [73.1]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。 これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。 本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (Thu, 04 Dec 2025 14:47:05 GMT) - 「We evaluate 11 widely used LLM-based agents (e g , Deepseek-v3.1-terminus (DeepSeek-AI, 2024), GLM- 4.5 (Zeng et al , 2025), Gemini-2.5-pro (Comanici et al , 2025)) on our task suite, and the results are striking: agen- tic upward deception is pervasive across all agents. They frequently guess, simulate outcomes, or silently switch in- formation sources when a task cannot be completed, yet still return confident and seemingly valid answers without flagging any anomalies. Most concerningly, several models even fabricate a file locally and disguise it as a successfully downloaded one.」との指摘。生成AIを使っているとしばしば目にする動きではあるが、整理されるとなかなかに衝撃的。
- リポジトリはQingyuLiu/Agentic-Upward-Deception · GitHub