注目

このサイトについて

Fugu-MT: arxivの論文翻訳」から論文を紹介します。と言いつつ実際はほぼ個人の備忘録です。要約・翻訳ともに自動化しているためたまに問題のある投稿が発生します。技術的な詳細はBlogをご参照ください。

記載されている内容は個人(Satoshi Takahashi)の見解であり、会社・所属機関の意見を代表するものではありません。

最近はBlog作成中に筆者のTwitter(@staka1982)でつぶやいています。

CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

  • CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards [80.8]
    自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。 エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 17:50:26 GMT)
  • 外部の報酬に頼らない自己進化のアプローチ、「As a new paradigm for self-evolution, CoMAS offers several distinct advantages: (1) It generates reward signals intrinsically from agent interactions, eliminating the need for verifiers or reward models. (2) The learning paradigm is generally effective for various tasks, including open-ended problems where solutions cannot be easily verified. (3) Agents are trained in a decentralized manner, allowing for co-evolution of heterogeneous systems without the bottleneck of a shared model. (4) It fosters skills that transfer to out-of-domain tasks and diverse multi-agent collaboration settings.」とのこと。
  • リポジトリはGitHub – xxyQwQ/CoMAS: Implementation for the paper “CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards”.

Gemini 2.5 Computer Use, OpenAI Dev Day, RWKV-8, Mamba3

先週の注目ニュースはGemini 2.5 computer use(Introducing the Gemini 2.5 Computer Use model)、OpenAI Dev Dayの様々なサービスの発表(個人的に注目はApps SDKAgents – OpenAI APIOpenAI Guardrails Python)だった。各社基盤モデルだけでなくビジネスの領域に踏み込んでくる感は継続している。

アーキテクチャ面だとRWKV-8の順調そうな投稿(XユーザーのBlinkDLさん: 「The new mechanism in RWKV-8 “Heron” 🪶 is named ROSA (acronym, note SA ≠ Self-Attention here) 🌹 ROSA is compromise-free: we get efficient, scalable, genuine infinite ctx, by applying some beautiful algorithms. https://t.co/meM1MRtIhI」 / XXユーザーのBlinkDLさん: 「RWKV-8 ROSA 🌹 mechanism: neurosymbolic infinite-range lossless information propagator beyond attention, enabling LLMs to invent their own inner monologue languages. First step towards scalable post-neural methods, for a new era in AI 🌌 https://t.co/kAcc7YfKeo」 / X)、Mamba3(著者不明だがMamba-3: Improved Sequence Modeling using State Space Principles | OpenReview)にも注目という感じ。SSMとTransformerハイブリッドの小型推論モデル、ai21labs/AI21-Jamba-Reasoning-3B · Hugging Faceも高性能そうでSSMの発展には期待が大きい。

毎年恒例の🪩 The State of AI Report 2025 🪩をみつつ(一部微妙な記載もあるが)研究の進展が速いのと、応用領域が広がっていることを感じている。International Astronomy & Astrophysics OlympiadでLLMが好成績をおさめる報告も興味深い。

  • Large Language Models Achieve Gold Medal Performance at International Astronomy & Astrophysics Olympiad [43.5]
    我々は,国際天文学・天体物理学試験(IOAA)において,5つの大きな言語モデル(LLM)をベンチマークした。 平均スコアは85.6%、84.2%で、ジェミニ2.5 ProとGPT-5は4つのIOAA理論試験で200-300人中上位2位にランクインした。 GPT-5は88.5%のスコアで試験に合格しており、最新の4つのIOAAの参加者の中ではトップ10にランクインしている。
    論文  参考訳(メタデータ)   (Mon, 06 Oct 2025 16:58:47 GMT)

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models 

  • SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models [158.2]
    現在の大規模言語モデル (LLM) と音声言語モデル (SLM) は、ユーザがターンを終えた後にのみ、思考と行動を取る。 これにより、モデルがユーザのターン中に対話するのを防ぎ、考えるのを待つ間、レスポンスのレイテンシが高くなります。 SHANKSは,ユーザ入力を聴きながら,無意味な連鎖推論をSLMが生成できるフレームワークである。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 11:48:59 GMT)
  • 「a general framework for SLMs that enables thinking while listening. To the best of our knowledge, we are the first to explore generating unspoken CoT reasoning when the user is still speaking.」とユーザ入力を受けながら同時に考えるフレームワークの提案。同時通訳のみならず応用領域が広そう。
  • リポジトリはSHANKS (シャンクス)

Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning

  • Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7]
    本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。 M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 17:55:02 GMT)
  • 「We propose M-Thinker, which both achieves the input-output language consistency with a Language Consistency reward and enhances the multilingual reasoning performance with a Cross-lingual Thinking Alignment reward.」と入力・思考・出力で言語を一致させる手法の提案。性能向上につながる場合もありそうなのが興味深い。
  • リポジトリはGitHub – XZhang00/M-Thinker: Code for “Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning”.

Less is More: Recursive Reasoning with Tiny Networks

  • Less is More: Recursive Reasoning with Tiny Networks [6.3]
    階層推論モデル(Hierarchical Reasoning Model, HRM)は、異なる周波数で再帰する2つの小さなニューラルネットワークを用いた新しいアプローチである。 小型ネットワークの難題を解決するために,Tiny Recursive Model (TRM)を提案する。 TRMはARC-AGI-1で45%、ARC-AGI-2で8%の精度を達成した。
    論文  参考訳(メタデータ)   (Mon, 06 Oct 2025 14:58:08 GMT)
  • 特化型の推論モデルの提案、ARC-AGIと数独で効果を検証。
  • 「Contrary to the Hierarchical Reasoning Model (HRM), TRM requires no fixed-point theorem, no complex biological justifications, and no hierarchy.」という記載が面白い。

WALT: Web Agents that Learn Tools 

  • WALT: Web Agents that Learn Tools [66.7]
    WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。 WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。 VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
    論文  参考訳(メタデータ)   (Wed, 01 Oct 2025 23:41:47 GMT)
  • 「instead of reasoning about how to click and type, agents simply call search(query) or create(listing). This shifts the computational burden from fragile step- by-step reasoning to reliable tool invocation.」というアプローチによるWEBエージェントの構築。
  • この手のエージェントが流行るとWEBサイトのあり方も変わっていくように思う。

TimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis

  • TimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis [25.4]
    TimeSeriesScientist(TSci)は時系列予測のための一般的なドメインに依存しないフレームワークである。 これはそれぞれ平均10.4%と38.2%の予測誤差を減少させる。 透明な自然言語の合理性と包括的な報告により、TSciは予測をホワイトボックスシステムに変換する。
    論文  参考訳(メタデータ)   (Thu, 02 Oct 2025 00:18:59 GMT)
  • 「Upon receiving input time series data, the framework executes a structured four-agent workflow. Curator generates analytical reports (Section 3.2), Planner selects model configurations through reasoning and validation (Section 3.3), Forecaster integrates model results to produce the final forecast (Section 3.4), Reporter generates a comprehensive report as the final output of our framework (Section 3.5).」という時系列分析のエージェントフレームワーク
  • プロジェクトサイトはTimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis

D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

  • D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents [22.3]
    D-ArtemisはGUIエージェントのための新しい検討フレームワークである。 D-Artemisは、詳細なアプリ固有のチップ検索メカニズムを使用して、意思決定プロセスに通知する。 また、TACチェックモジュールとACA(Action Correction Agent)が協調して動作し、実行障害のリスクを軽減している。 実行後状態反映エージェント(SRA)は認知ループを完了し、経験から戦略的学習を可能にする。
    論文  参考訳(メタデータ)   (Fri, 26 Sep 2025 02:56:19 GMT)
  • 「(a) The manager agent is guided by two input modalities: textual (task, tips, working memory) and visual (screenshot only). (b) Pre-execution, TAC Check module verifies thought-action consistency. (c) A low consistency score triggers the Action Correction Agent (ACA) to analyze the error type and rectify the action. (d) Post-execution, the Status Reflection Agent (SRA) assesses the action effectiveness and the environmental state to produce guidance for the next step. Upon completion of each step, the working memory is updated.」と非常に凝ったマルチエージェント構成をとるGUI Agent。同一バックボーンを持つアプローチに対して優位性を主張。

Experience-guided reflective co-evolution of prompts and heuristics for automatic algorithm design 

  • Experience-guided reflective co-evolution of prompts and heuristics for automatic algorithm design [124.5]
    組合せ最適化問題は伝統的に手作りのアルゴリズムで取り組まれている。 最近の進歩は、大規模言語モデルによる自動設計の可能性を強調している。 本稿では,自動アルゴリズム設計のためのPmpt and Heuristics (EvoPH) を用いた経験進化的リフレクティブ・ガイドを提案する。
    論文  参考訳(メタデータ)   (Mon, 29 Sep 2025 09:24:09 GMT)
  • 「we propose EvoPH, a novel experience-guided reflective co-Evolution framework that can co-evolve Prompts and Heuristics for automatic algorithm design.」、「EvoPH comprises two interacting processes. Heuristics Evolution generates, evaluates, and stores candidate algorithms, providing feedback for further search. Prompt Evolution adaptively refines LLM prompts and strategy selection based on this feedback.」と人が手で最適化するようなフレームワークの提案。従来の手法から優位性を確認とのこと。

More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration

  • More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.2]
    ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。 実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。 ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
    論文  参考訳(メタデータ)   (Thu, 02 Oct 2025 17:14:00 GMT)
  • 「we introduce Adaptive Multi-Guidance Policy Optimization (AMPO), a novel Mixed-Policy RL framework. Instead of relying on a single stronger teacher (e g , GPT4o or DeepSeek-R1), AMPO leverages the collective intelligence of multiple peer models. It operates on a “guidance-on-demand” principle: external guidance from diverse teachers replaces on-policy failures only when the student model is unable to solve a problem, thus maximizing the value of self- exploration. Furthermore, AMPO employs a comprehension-based guidance selection mechanism.」というフレームワークの提案。教師側が強力な1モデルではなく、複数の小型モデルで良いというは面白い。
  • リポジトリはGitHub – SII-Enigma/AMPO: Official Repository of “More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration”