Magentic-UI: Towards Human-in-the-loop Agentic Systems

  • Magentic-UI: Towards Human-in-the-loop Agentic Systems [34.5]
    本稿では,ヒューマンエージェントインタラクションの開発と研究のためのオープンソースのWebインターフェースであるMagentic-UIを紹介する。 柔軟なマルチエージェントアーキテクチャに基づいて構築されたMagentic-UIは、Webブラウジング、コード実行、ファイル操作をサポートする。 エージェントベンチマークによる自律的なタスク補完、インタラクション機能のユーザテストのシミュレーション、実際のユーザとの質的研究、ターゲットとする安全性評価の4つの側面でMagentic-UIを評価した。
    論文  参考訳(メタデータ)   (Wed, 30 Jul 2025 03:49:14 GMT)
  • 「Six interaction mechanisms designed to support low-cost, human-agent interaction in Magentic- UI: co-planning, co-tasking, action approval, answer verification, memory, and multi-tasking.」と人間と強調しながら動作するエージェント開発のためのフレームワーク。
  • リポジトリはmicrosoft/magentic-ui: A research prototype of a human-centered web agent

Expert-Guided LLM Reasoning for Battery Discovery: From AI-Driven Hypothesis to Synthesis and Characterization

  • Expert-Guided LLM Reasoning for Battery Discovery: From AI-Driven Hypothesis to Synthesis and Characterization [48.0]
    大型言語モデル(LLM)は複雑な問題に対処するためにチェーン・オブ・シント(CoT)技術を利用する。 ドメイン知識を統合した新しいエージェントフレームワークであるChatBatteryを,材料設計におけるより効果的な推論に向けて導入する。 新規リチウムイオン電池陰極材料3種を同定,合成,特性評価し,28.8%,25.2%,18.5%の実用能力向上を実現した。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 23:46:11 GMT)
  • 科学的発見を支援するAI、「ChatBattery is an AI-driven material optimization platform structured into two synergistic phases: exploration and exploitation. Together, these phases encompass eight sequential stages, orchestrated by seven specialized agents.」とかなり複雑な構成のマルチエージェントシステムになっている。加えて、人間とのコラボレーションが重視されているように見える。
    • This suggests that ChatBattery, in its present form, is more adept at optimizing within known paradigms than at generating fundamentally new chemistries. As such, expert input remains essential to expand the system’s exploration boundaries and push beyond conventional chemical spaces. Importantly, this interplay between AI-driven generation and human-guided refinement also creates unexpected opportunities, as demonstrated in the refinement of AI-suggested materials into even more advanced cathode compositions. However, advances anticipated with future reasoning AIs are likely to provide greater exploration and creativity.という記載がある。
  • 「ChatBattery, we successfully identify, synthesize, and characterize three novel lithiumion battery cathode materials, which achieve practical capacity improvements of 28.8%, 25.2%, and 18.5%, respectively, over the widely used cathode material, LiNi0.8Mn0.1Co0.1O2 (NMC811).」と効果があったとのこと。

A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents 

  • A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.5]
    大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。 これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
    論文  参考訳(メタデータ)   (Mon, 30 Jun 2025 13:34:34 GMT)
  • AIエージェントとセキュリティリスクに関するサーベイ。
  • 検討ポイントが多い。。

Graphs Meet AI Agents: Taxonomy, Progress, and Future Opportunities

Establishing Best Practices for Building Rigorous Agentic Benchmarks 

  • Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.7]
    多くのエージェントベンチマークではタスク設定や報酬設計が問題となっている。 このような問題は、相対的な用語で、過小評価または過大評価エージェントのパフォーマンスを最大100%向上させる可能性がある。 我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
    論文  参考訳(メタデータ)   (Thu, 03 Jul 2025 17:35:31 GMT)
  • 構築が難しいエージェント系ベンチマークの注意点をまとめた論文。
  • 「the issues found in τ-bench-Airline, some other example issues we found are: (1) an agent can score 100% on SWE-Lancer without resolving any tasks;」のような問題は相応にある気がするし、「Based on ABC, we assessed ten widely used agentic benchmarks and identified significant evaluation issues that cases up to 100% errors (in relative terms) when estimating agents’ performance.」も驚愕という感じではない。
  • リポジトリはGitHub – uiuc-kang-lab/agentic-benchmarks

Towards AI Search Paradigm 

  • Towards AI Search Paradigm [42.6]
    我々は,人間の情報処理と意思決定をエミュレートできる次世代検索システムの青写真であるAI Search Paradigmを紹介する。 このパラダイムは、4つのLCMを動力とするエージェントのモジュラーアーキテクチャを採用し、情報要求の完全な範囲に動的に適応する。 この研究は、これらのコンポーネントの詳細なガイドを提供することによって、信頼できる、適応的でスケーラブルなAI検索システムの開発を知らせることを目的としている。
    論文  参考訳(メタデータ)   (Fri, 20 Jun 2025 17:42:13 GMT)
  • 検索用のマルチエージェントフレームワークの整理
  • 検索とLLMの関係性がよくわかる論文

A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models

  • A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models [45.1]
    Webのコンテキストでは、退屈な日々のタスクを扱う人々を支援するために、AI Agents — WebAgents — を活用することで、生産性と効率が劇的に向上する。 LFMの可能性を十分に探求するために、ユーザの指示に従って日々のWebタスクを完了させるように設計されたWebAgentsに広範な研究が登場した。
    論文  参考訳(メタデータ)   (Mon, 26 May 2025 07:05:18 GMT)
  • 利用が広がるWebAgentのサーベイ

Deep Research API, Gemini CLI, Mistral-Small-3.2-24B, Hunyuan-A13B, OpusLM

様々なニュースがあるが、先週の注目はDeepResearchAPIの登場(Introduction to deep research in the OpenAI API)、Gemini CLIのリリース(Gemini CLI : オープンソース AI エージェント | Google Cloud 公式ブログ)のように思う。LLMやLRMなど基盤モデルを提供するベンダーが応用領域にも進出してくるのは生成AI周りでは特徴的。より付加価値を得ていく動きとしては当然ではあるが、API利用で勝負しているベンダーやスタートアップにとってはつらい展開が続く。

Mistralからはmistralai/Mistral-Small-3.2-24B-Instruct-2506 · Hugging Faceが出ていた。また、Tencentからは80B, 13 ActiveなMoE・ReasoningハイブリッドモデルのHunyuan-A13Bが発表されている(GitHub – Tencent-Hunyuan/Hunyuan-A13B: Tencent Hunyuan A13B (short as Hunyuan-A13B), an innovative and open-source LLM built on a fine-grained MoE architecture.)。

別軸でOpenなSpeechLMも発表されている。オープンな動きにも注目したい。

  • OpusLM: A Family of Open Unified Speech Language Models [56.1]
    OpusLMは、213K時間の音声テキストペアと292Bのテキスト専用トークンで継続的に事前トレーニングされている。 本稿では,トークン化,マルチストリーム言語モデル,マルチステージトレーニング戦略に関するSpeechLMの設計について述べる。
    論文  参考訳(メタデータ)   (Sat, 21 Jun 2025 06:30:59 GMT)
  • Open Unified Speech Language Models でOpusLMs
  • モデルはespnet/OpusLM_7B_Anneal · Hugging Face

The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas / Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI 

  • The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas [90.3]
    良いアイデアは単に斬新なものではなく、実行後により良い研究がもたらされるべきである。 AIが生み出すアイデアがより良い研究成果をもたらすかどうかをテストするために、我々は実行研究を行う。 実行前後の同じアイデアのレビュースコアを比較すると、LLM生成のアイデアのスコアは専門家によるアイデアよりも大幅に減少する。
    論文  参考訳(メタデータ)   (Wed, 25 Jun 2025 19:47:23 GMT)
  • LLMが出したアイデアと専門家のアイデアを「Our execution participants spend an average of 103 hours executing the assigned idea and then submit the codebase and paper to document their experiments. All projects are then reviewed blindly by our recruited expert reviewers」と評価したところ「Average scores of AI ideas drop significantly more than Human ideas in the execution study across all the evaluation metrics.」という指摘。
  • やはり人間の専門家は深く考えているようという興味深い結果。同時に、アイデアのみだとAIの評価が高いということはアイデアだしでは有効なのではないか?とか最終的なスコアでもそこそこ健闘しているのではないか?と見えなくもない。下記論文のようにAI科学者の実現可能性は高まっているように思う。
  • リポジトリはGitHub – NoviScl/AI-Researcher
  • Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI [98.2]
    知的科学研究所(ISL)のパラダイムを提案する。 ISLは、認知と具体的知性を深く統合した多層クローズドループフレームワークである。 このようなシステムは、現在の科学的発見の限界を克服するために不可欠である、と我々は主張する。
    論文  参考訳(メタデータ)   (Tue, 24 Jun 2025 13:31:44 GMT)
  • 「1) Foundation Models provide multi-modal scientific knowledge representation and closed-loop learning capabilities, supporting complex reasoning and domain adaptation; (2) Agent Layer dynamically orchestrates scientific workflows—including hypothesis generation, literature review, experimental planning, execution, and analysis—while integrating model/toolkit via MCP integration; (3) Embodied Layer realizes robust physical interaction through advanced perception, navigation, and manipulation modules, enabling precise, adaptive operations in real-world laboratory environments.」からなるAI科学者・AIラボフレームワークの提案。
  • 現状と課題がとても参考になる。

SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence 

  • SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence [28.0]
    自動エージェントシステム生成のためのフレームワークであるSwarmAgenticを提案する。 SwarmAgenticはエージェントシステムをスクラッチから構築し、エージェント機能とコラボレーションを共同で最適化する。 提案手法を,高レベル計画,システムレベルの調整,創造的推論を含む6つの実世界,オープンエンド,探索的タスクで評価する。
    論文  参考訳(メタデータ)   (Wed, 18 Jun 2025 17:54:55 GMT)
  • 「We propose SwarmAgentic, a framework for fully automated agentic system generation that constructs agentic systems from scratch and jointly optimizes agent functional- ity and collaboration as interdependent com- ponents through language-driven exploration. To enable efficient search over system-level structures, SwarmAgentic maintains a population of candidate systems and evolves them via feedback-guided updates, drawing inspiration from Particle Swarm Optimization (PSO).」というフレームワークの提案。
  • 各エージェントを粒子ととらえらParticle Swarm Optimization (PSO)的アプローチで他手法を超える性能とのこと。計算コストがどの程度かはやや気になるところ。
  • プロジェクトサイトはAcademic Project Page