IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery

  • IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.2]
    内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。 大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。 本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
    論文  参考訳(メタデータ)   (Sun, 08 Feb 2026 12:28:29 GMT)
  • 「in this paper, we investigate whether large language models can assist in the discovery of instrumental variables through a structured, multi-agent framework in which LLM-based agents propose, critique, and refine candidate instruments.」とinstrumental variablesを発見するためのマルチエージェントシステムの提案。「Our empirical results on real-world data demonstrate that LLM-suggested instruments show meaningful consistency, providing a first step to- ward principled use of LLMs in variable discovery.」と一定有望な結果。

InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

  • InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery [138.0]
    InternAgent-1.5は、エンドツーエンドの科学的発見を目的とした統合システムである。 このシステムは、生成、検証、進化のための3つの調整されたサブシステムで構成される構造化アーキテクチャ上に構築されている。 InternAgent-1.5をGAIA,HLE,GPQA,FrontierScienceなどの科学的推論ベンチマークで評価した。
    論文  参考訳(メタデータ)   (Mon, 09 Feb 2026 18:36:06 GMT)
  • 「A Unified Architecture for End-to-end Scientific Discovery: InternAgent-1.5 organizes the scientific discovery process into three coherent subsystems for Generation, Verification, and Evolution. These subsystems support the full cycle of hypothesis formulation, methodological evaluation, and evidence driven refinement through foundational capabilities for deep research, solution refinement, and long horizon memory.」と科学的な発見を目指したAgentic Frameworkの提案。
  • リポジトリはGitHub – InternScience/InternAgent: InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models 

Agentic Reasoning for Large Language Models

  • Agentic Reasoning for Large Language Models [122.8]
    推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。 大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。 エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
    論文  参考訳(メタデータ)   (Sun, 18 Jan 2026 18:58:23 GMT)
  • 「Agentic reasoning positions reasoning as the central mechanism of intelligent agents, spanning foundational capabilities (planning, tool use, and search), self-evolving adaptation (feedback, and memory-driven adaptation), and collective coordination (multi-agent collaboration), realizable through either in-context orchestration or post-training optimization.」として整理されたサーベイ。In-context Reasoning、Post-training Reasoningの両方を含む。
  • リポジトリはGitHub – weitianxin/Awesome-Agentic-Reasoning

MoCo: A One-Stop Shop for Model Collaboration Research

  • MoCo: A One-Stop Shop for Model Collaboration Research [132.5]
    MoCo: 大規模なモデルコラボレーションアルゴリズムの実行、ベンチマーク、比較を行う、ワンストップPythonライブラリ。 MoCoは26のモデルコラボレーションメソッドを備えており、さまざまなレベルのクロスモデル情報交換が可能である。 MoCoによる大規模な実験は、ほとんどのコラボレーション戦略が、コラボレーションなしでモデルより優れていることを示している。 私たちは、MoCoをオープンでモジュール化され、分散化され、協力的なAIの未来を探求するための、貴重なツールキットとして想定しています。
    論文  参考訳(メタデータ)   (Thu, 29 Jan 2026 04:36:52 GMT)
  • 「MOCO features a wide range of 26 model collaboration algorithms, spanning four levels of collaboration defined by the level of information exchange: API-level (e g , routing (Ong et al , 2025) and switching (Feng et al , 2025d; Huang et al , 2026)), text-level (e g , debate (Du et al , 2023) and cooperate (Yu et al , 2025)), logit-level (e g , collective decoding (Liu et al , 2024a)), and weight- level (e g , merging (Yadav et al , 2024) and parameter- space search (Feng et al , 2025c)).」とマルチエージェントシステム導入のためのフレームワーク。「Extensive experiments with MOCO demonstrate that model collaboration is a promising path towards modular and com- positional AI systems. Model collaboration outperforms individual models in 61.0% of cases across diverse (model, data) settings, with the most successful algorithms outperforming in almost every evaluation domain by up to 25.8%.」と効果も確認している。
  • リポジトリはGitHub – BunsenFeng/model_collaboration

Toward Efficient Agents: Memory, Tool learning, and Planning

LLM-in-Sandbox Elicits General Agentic Intelligence

  • LLM-in-Sandbox Elicits General Agentic Intelligence [142.7]
    我々はLLM-in-Sandboxを導入し、LLMがコードサンドボックス(仮想コンピュータ)内で探索し、非コードドメインの汎用インテリジェンスを引き出すことを可能にする。 コードサンドボックスを非コードタスクに活用するための一般化機能を示す。 実験により、LLM-in-Sandboxは、無訓練と後訓練の両方の環境で、数学、物理学、化学、生医学、長文理解、そして次の指示にまたがる堅牢な一般化を実現することが示された。
    論文  参考訳(メタデータ)   (Thu, 22 Jan 2026 18:57:09 GMT)
  • LLMがSandboxを用いることの有効性を示す論文。「We anticipate sandbox environments will become standard infrastructure, transforming LLMs from text generators into general-purpose digital workers.」とも主張。コード生成を介した処理が有効であるのは良く知られていて納得感のある結果に思う。
  • リポジトリはLLM-in-Sandbox Demo

Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models 

  • Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.7]
    ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。 Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
    論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 04:25:11 GMT)
  • 「Youtu-LLM significantly outperforms existing state-of-the-art models of similar scale across both general- purpose (Figure 2) and agentic benchmarks (Figure 1), and in several settings, rivals substantially larger models. Beyond performance gains, our analyses provide the first systematic evidence that agentic pre- training can unlock agent potential in lightweight LLMs, revealing phenomena such as scalable growth of agent capabilities.」と小規模、エージェント向けのモデルの提案。オンデバイスを狙うとエージェント関連の能力を保ったままの小型化が重要であり「We propose a principled training paradigm that enhances native agentic capabilities through innovations in tokenizer design, data allocation, and multi-stage learning, guided by an agent-centric philosophy.」とあるように狙って強化することもできるよう。
  • リポジトリはGitHub – TencentCloudADP/youtu-tip: Youtu-Tip: Tap for Intelligence, Keep on Device.、モデルはYoutu – a tencent Collection

Adaptation of Agentic AI 

  • Adaptation of Agentic AI [162.6]
    我々は、急速に拡大する研究環境を、エージェント適応とツール適応の両方にまたがる体系的な枠組みに統一する。 エージェントAIにおける適応戦略の設計空間を明らかにする上で,本フレームワークが有効であることを示す。 次に、各カテゴリの代表的アプローチをレビューし、その強みと限界を分析し、主要なオープン課題と今後の機会を強調します。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 08:38:51 GMT)
  • AIエージェントに関するサーベイ。「The transition from static foundation models to autonomous agentic systems marks a fundamental shift in artificial intelligence, moving from passive response generation to active and multi-step problem solving. As these systems are deployed in increasingly complex and open-ended environments, the ability to adapt to refine behavior, master new tools, and align with specific tasks has become the primary driver of reliability and performance.」を「(A1) Agent Adaptation with Tool Execution Signal, (A2) Agent Adaptation with Agent Output Signal, (T1) Agent-Agnostic Tool Adaptation, and (T2) Agent-Supervised Tool Adaptation.」軸で整理。メリデメがあるので「Looking forward, the advancement of agentic AI depends on the strategic integration of these paradigms rather than their isolation.」というのはそうだろうと思う。
  • リポジトリはGitHub – pat-jj/Awesome-Adaptation-of-Agentic-AI: Repo for “Adaptation of Agentic AI”

OpenAI GPT Image-1.5, Gemini 3.0 Flash, Nemotron 3, Xiaomi MiMo-V2-Flash, Olmo 3(論文), Bolmo, LLaDA2.0, Step-GUI, Seedance 1.5 pro, Kling-Omni

OpenAIとGoogleの競争は激しく、OpenAIからはNanoBananaに対抗すると見込まれるGPT Image-1.5が発表された(GPT Image 1.5 Model | OpenAI API)。Googleからはコスパに優れるGemini 3.0 Flash(Introducing Gemini 3 Flash: Benchmarks, global availability)が出ている。とてもコストが安いが一部ベンチマークではProを超えているようにも見え、コスパが高い。

オープン系のモデルでも、Nemotron 3(NVIDIA Nemotron 3 Family of Models – NVIDIA Nemotron)、Xiaomi MiMo-V2-Flash(Xiaomi MiMoXユーザーのXiaomiMiMoさん: 「⚡ Faster than Fast. Designed for Agentic AI. Introducing Xiaomi MiMo-V2-Flash — our new open-source MoE model: 309B total params, 15B active. Blazing speed meets frontier performance. 🔥 Highlights: 🏗️ Hybrid Attention: 5:1 interleaved 128-window SWA + Global | 256K context 📈 https://t.co/yCqP4L8bU4」 / X)、Step-GUI(GELab-Zero – GUI Agent for Mobile Devices)など注目すべき発表があった。Ai2からはOlmo3に関する論文が出ているほか、byte-level language modelという興味深いモデルも発表されている。新たなモデルという観点は規模の大きなDiffusion Language Models、LLaDA2.0にも要注目である。

動画関連でもSeedance 1.5 proや Kling-Omniのテクニカルレポートが発表されている。

  • Step-GUI Technical Report [83.9]
    本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。 また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。 エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 13:26:30 GMT)
  • 「we introduce a self-evolving training pipeline centered on the Calibrated Step Reward System (CSRS).」、「The system consists of a Calibration Layer that performs trajectory-level validation (success/failure) and a Data Extraction module powered by thinking models that generates seven categories of structured training data. Model-generated trajectories flow through CSRS in an iterative loop: rollout generates trajectories, CSRS processes them into high-quality training data, and training produces stronger models for the next iteration.」と凝ったパイプライン。7つのカテゴリのデータとは「(1) progress tracking, (2) state summary, (3) effect prediction, (4) self-reflection, (5) state verification, (6) intent execution, and (7) action prediction」を指す。
  • リポジトリはGitHub – stepfun-ai/gelab-zero: GELab: GUI Exploration Lab. One of the best GUI agent solutions in the galaxy, built by the StepFun-GELab team and powered by Step’s research capabilities.
  • Olmo 3 [195.4]
    Olmo 3は、7Bおよび32Bパラメータスケールの最先端で完全にオープンな言語モデルのファミリーである。 私たちのフラッグシップモデルであるOlmo 3 Think 32Bは、これまでリリースされた中で最強の完全オープンな思考モデルです。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 23:41:48 GMT)
  • Olmo3の論文。論文を出すのが間に合っていないくらい進展が速い・・・
  • データやトレーニングログなど、モデルだけでなく様々な部分が公開されている。
  • Bolmo: Byteifying the Next Generation of Language Models [115.3]
    競合する完全オープンなバイトレベル言語モデル(LM)の最初のファミリーであるBolmoを紹介します。 バイト化はサブワードトークン化の限界を克服する。 我々はBolmoがサブワードレベルのLMと競合する推論速度を実現できることを示す。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 16:46:11 GMT)
  • バイトレベルの言語モデル。相応の規模で検証したのがすごい。
  • リポジトリはGitHub – allenai/bolmo-core: Code for Bolmo: Byteifying the Next Generation of Language Models
  • LLaDA2.0: Scaling Up Diffusion Language Models to 100B [96.8]
    LLaDA2.0 – 離散拡散大言語モデル(dLLM)を100億の総パラメータにスケールアップする。 LLaDA2.0は知識継承、進歩的適応、効率性に配慮した設計原則を支持している。 LLaDA2.0-mini (16B) と LLaDA2.0-flash (100B) の2つの命令調整型Mixture-of-Experts (MoE) が実用的展開に最適化されている。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 09:26:18 GMT)
  • ARから変換していくアプローチによるDiffusion Language Modelの構築。「Through extensive evaluations, it validates the feasibility of the training paradigm. The LLaDA2.0-mini and LLaDA2.0-flash models achieve performances that are competitive with their AR counterparts. Slightly surprisingly, LLaDA2.0-flash seems to have demonstrated advantages in complex, structured domains such as code generation, mathematical reasoning, and agentic tool use. These may have opened a new door to future work in the agentic LLM era while solidifying a gaugeable potential of dLLM for test-time scaling.」と効果および利点を報告している。
  • リポジトリはLLaDA 2.0 – a inclusionAI Collection
  • Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model [144.6]
    Seedance 1.5 Proは、ネイティブのジョイントオーディオビデオ生成用に特別に設計された基礎モデルである。 Seedance 1.5 Proは、正確な多言語と方言のリップシンク、ダイナミックシネマカメラコントロール、物語のコヒーレンスの向上を通じて、自分自身を区別する。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 16:36:52 GMT)
  •  「we present Seedance 1.5 pro, a foundational model engineered specifically for native, joint audio-video generation.」
  • リポジトリはSeedance 1.5 pro
  • Kling-Omni Technical Report [80.6]
    Kling-Omniはマルチモーダルな視覚言語入力から直接高忠実度動画を合成するための生成フレームワークである。 Kling-Omniは、多様なビデオ生成、編集、インテリジェントな推論タスク間の機能的分離を橋渡しする。 テキスト命令、参照画像、ビデオコンテキストを含む多様なユーザ入力をサポートし、それらを統一されたマルチモーダル表現に処理する。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 17:08:12 GMT)
  • Kling AI: Next-Gen AI Video & AI Image Generator