MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks 

  • MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks [95.9]
    MiroFlowは、大規模言語モデル(LLM)のためのオープンソースのエージェントフレームワークである。 フレキシブルなオーケストレーションのためのエージェントグラフ、パフォーマンスを向上させるためのオプションの深い推論モード、安定した再現可能なパフォーマンスを保証するための堅牢な実行が含まれている。 GAIA、BrowseComp-EN/ZH、HLE、xBench-DeepSearch、FutureXなど、複数のエージェントベンチマークにおける最先端のパフォーマンスを一貫して達成している。
    論文  参考訳(メタデータ)   (Thu, 26 Feb 2026 09:45:04 GMT)
  • オープンソースのリサーチエージェント。readmeにjaがあるのも興味深い。公式の実装にくらべても高い性能を主張。Foundation tier 、 Agent tier、 Control tierの3層構成。
  • リポジトリはmiroflow/README_ja.md at main · MiroMindAI/miroflow · GitHub

Towards a Science of AI Agent Reliability

  • Towards a Science of AI Agent Reliability [9.6]
    AIエージェントは、重要なタスクを実行するためにますますデプロイされる。 標準ベンチマークにおける精度の上昇は急速な進歩を示唆する一方で、多くのエージェントが実際に失敗し続けている。 エージェントの信頼性を4つの重要な次元(一貫性、堅牢性、予測可能性、安全性)に沿って分解する12のメトリクスを提案する。
    論文  参考訳(メタデータ)   (Wed, 18 Feb 2026 18:05:44 GMT)
  • 通常のパフォーマンスではなく信頼性の4軸(consistency, robustness, predictability, safety)からのベンチマーク比較、「14 models across two complementary benchmarks. Our results show that 18 months of rapid capability gains have produced only small improvements in reli- ability: models that are substantially more accurate remain inconsistent across runs, brittle to prompt rephrasings, and often fail to understand when they are likely to succeed.」とのこと。
  • プロジェクトサイトはHAL Reliability Dashboard

IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery

  • IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.2]
    内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。 大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。 本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
    論文  参考訳(メタデータ)   (Sun, 08 Feb 2026 12:28:29 GMT)
  • 「in this paper, we investigate whether large language models can assist in the discovery of instrumental variables through a structured, multi-agent framework in which LLM-based agents propose, critique, and refine candidate instruments.」とinstrumental variablesを発見するためのマルチエージェントシステムの提案。「Our empirical results on real-world data demonstrate that LLM-suggested instruments show meaningful consistency, providing a first step to- ward principled use of LLMs in variable discovery.」と一定有望な結果。

InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

  • InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery [138.0]
    InternAgent-1.5は、エンドツーエンドの科学的発見を目的とした統合システムである。 このシステムは、生成、検証、進化のための3つの調整されたサブシステムで構成される構造化アーキテクチャ上に構築されている。 InternAgent-1.5をGAIA,HLE,GPQA,FrontierScienceなどの科学的推論ベンチマークで評価した。
    論文  参考訳(メタデータ)   (Mon, 09 Feb 2026 18:36:06 GMT)
  • 「A Unified Architecture for End-to-end Scientific Discovery: InternAgent-1.5 organizes the scientific discovery process into three coherent subsystems for Generation, Verification, and Evolution. These subsystems support the full cycle of hypothesis formulation, methodological evaluation, and evidence driven refinement through foundational capabilities for deep research, solution refinement, and long horizon memory.」と科学的な発見を目指したAgentic Frameworkの提案。
  • リポジトリはGitHub – InternScience/InternAgent: InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models 

Agentic Reasoning for Large Language Models

  • Agentic Reasoning for Large Language Models [122.8]
    推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。 大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。 エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
    論文  参考訳(メタデータ)   (Sun, 18 Jan 2026 18:58:23 GMT)
  • 「Agentic reasoning positions reasoning as the central mechanism of intelligent agents, spanning foundational capabilities (planning, tool use, and search), self-evolving adaptation (feedback, and memory-driven adaptation), and collective coordination (multi-agent collaboration), realizable through either in-context orchestration or post-training optimization.」として整理されたサーベイ。In-context Reasoning、Post-training Reasoningの両方を含む。
  • リポジトリはGitHub – weitianxin/Awesome-Agentic-Reasoning

MoCo: A One-Stop Shop for Model Collaboration Research

  • MoCo: A One-Stop Shop for Model Collaboration Research [132.5]
    MoCo: 大規模なモデルコラボレーションアルゴリズムの実行、ベンチマーク、比較を行う、ワンストップPythonライブラリ。 MoCoは26のモデルコラボレーションメソッドを備えており、さまざまなレベルのクロスモデル情報交換が可能である。 MoCoによる大規模な実験は、ほとんどのコラボレーション戦略が、コラボレーションなしでモデルより優れていることを示している。 私たちは、MoCoをオープンでモジュール化され、分散化され、協力的なAIの未来を探求するための、貴重なツールキットとして想定しています。
    論文  参考訳(メタデータ)   (Thu, 29 Jan 2026 04:36:52 GMT)
  • 「MOCO features a wide range of 26 model collaboration algorithms, spanning four levels of collaboration defined by the level of information exchange: API-level (e g , routing (Ong et al , 2025) and switching (Feng et al , 2025d; Huang et al , 2026)), text-level (e g , debate (Du et al , 2023) and cooperate (Yu et al , 2025)), logit-level (e g , collective decoding (Liu et al , 2024a)), and weight- level (e g , merging (Yadav et al , 2024) and parameter- space search (Feng et al , 2025c)).」とマルチエージェントシステム導入のためのフレームワーク。「Extensive experiments with MOCO demonstrate that model collaboration is a promising path towards modular and com- positional AI systems. Model collaboration outperforms individual models in 61.0% of cases across diverse (model, data) settings, with the most successful algorithms outperforming in almost every evaluation domain by up to 25.8%.」と効果も確認している。
  • リポジトリはGitHub – BunsenFeng/model_collaboration

Toward Efficient Agents: Memory, Tool learning, and Planning

LLM-in-Sandbox Elicits General Agentic Intelligence

  • LLM-in-Sandbox Elicits General Agentic Intelligence [142.7]
    我々はLLM-in-Sandboxを導入し、LLMがコードサンドボックス(仮想コンピュータ)内で探索し、非コードドメインの汎用インテリジェンスを引き出すことを可能にする。 コードサンドボックスを非コードタスクに活用するための一般化機能を示す。 実験により、LLM-in-Sandboxは、無訓練と後訓練の両方の環境で、数学、物理学、化学、生医学、長文理解、そして次の指示にまたがる堅牢な一般化を実現することが示された。
    論文  参考訳(メタデータ)   (Thu, 22 Jan 2026 18:57:09 GMT)
  • LLMがSandboxを用いることの有効性を示す論文。「We anticipate sandbox environments will become standard infrastructure, transforming LLMs from text generators into general-purpose digital workers.」とも主張。コード生成を介した処理が有効であるのは良く知られていて納得感のある結果に思う。
  • リポジトリはLLM-in-Sandbox Demo

Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models 

  • Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.7]
    ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。 Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
    論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 04:25:11 GMT)
  • 「Youtu-LLM significantly outperforms existing state-of-the-art models of similar scale across both general- purpose (Figure 2) and agentic benchmarks (Figure 1), and in several settings, rivals substantially larger models. Beyond performance gains, our analyses provide the first systematic evidence that agentic pre- training can unlock agent potential in lightweight LLMs, revealing phenomena such as scalable growth of agent capabilities.」と小規模、エージェント向けのモデルの提案。オンデバイスを狙うとエージェント関連の能力を保ったままの小型化が重要であり「We propose a principled training paradigm that enhances native agentic capabilities through innovations in tokenizer design, data allocation, and multi-stage learning, guided by an agent-centric philosophy.」とあるように狙って強化することもできるよう。
  • リポジトリはGitHub – TencentCloudADP/youtu-tip: Youtu-Tip: Tap for Intelligence, Keep on Device.、モデルはYoutu – a tencent Collection