- In-Context Clustering with Large Language Models [50.3]
ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。 事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。 我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 17:07:55 GMT) - LLMの内部知識を用いたクラスタリングモデルの提案。fine tuningによって性能を大きく向上させている。軸設定が強力にできるのが素晴らしい。
- プロジェクトサイトはIn-Context Clustering
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
- Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models [18.8]
ACE(Agentic Context Engineering)は、コンテキストを進化するプレイブックとして扱うフレームワークである。 エージェントとドメイン固有のベンチマークを通じて、ACEは一貫して強力なベースラインを上回っている。 ACEは、ラベル付けされた監視なしに効果的に適応することができ、代わりに自然な実行フィードバックを活用することができる。
論文 参考訳(メタデータ) (Mon, 06 Oct 2025 09:30:18 GMT) - 「We present ACE (Agentic Context Engineering), a framework for scalable and efficient context adaptation in both offline (e g , system prompt optimization) and online (e g , test-time memory adaptation) scenarios. Instead of condensing knowledge into terse summaries or static instructions, ACE treats contexts as evolving playbooks that continuously accumulate, refine, and organize strategies over time.」とこちらもコンテキストを記憶のように使い自己改善するアプローチに見える。
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs
- When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs [64.3]
最近のLong-Context Language Modelsは、1つのプロンプトで数十万のトークンを処理することができる。 我々は、従来の問題解決トレースから導かれた再利用可能な思考キャッシュとして、推論をリキャストする。 本稿では,自然言語フィードバックによって学習データから得られるテンプレートを反復的に洗練する更新戦略を提案する。
論文 参考訳(メタデータ) (Wed, 08 Oct 2025 19:52:35 GMT) - 「Thought Template Augmented LCLMs (TOTAL), that equips long- context models with reusable reasoning patterns and iteratively refines them through natural language feedback.」というアプローチの提案。ロングコンテキストをうまく使う記憶というイメージだろうか。
- リポジトリはhttps://github.com/starsuzi/ToTALとのことだが現時点では404
CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards
- CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards [80.8]
自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。 エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 17:50:26 GMT) - 外部の報酬に頼らない自己進化のアプローチ、「As a new paradigm for self-evolution, CoMAS offers several distinct advantages: (1) It generates reward signals intrinsically from agent interactions, eliminating the need for verifiers or reward models. (2) The learning paradigm is generally effective for various tasks, including open-ended problems where solutions cannot be easily verified. (3) Agents are trained in a decentralized manner, allowing for co-evolution of heterogeneous systems without the bottleneck of a shared model. (4) It fosters skills that transfer to out-of-domain tasks and diverse multi-agent collaboration settings.」とのこと。
- リポジトリはGitHub – xxyQwQ/CoMAS: Implementation for the paper “CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards”.
Gemini 2.5 Computer Use, OpenAI Dev Day, RWKV-8, Mamba3
先週の注目ニュースはGemini 2.5 computer use(Introducing the Gemini 2.5 Computer Use model)、OpenAI Dev Dayの様々なサービスの発表(個人的に注目はApps SDK、Agents – OpenAI API、OpenAI Guardrails Python)だった。各社基盤モデルだけでなくビジネスの領域に踏み込んでくる感は継続している。
アーキテクチャ面だとRWKV-8の順調そうな投稿(XユーザーのBlinkDLさん: 「The new mechanism in RWKV-8 “Heron” 🪶 is named ROSA (acronym, note SA ≠ Self-Attention here) 🌹 ROSA is compromise-free: we get efficient, scalable, genuine infinite ctx, by applying some beautiful algorithms. https://t.co/meM1MRtIhI」 / X、XユーザーのBlinkDLさん: 「RWKV-8 ROSA 🌹 mechanism: neurosymbolic infinite-range lossless information propagator beyond attention, enabling LLMs to invent their own inner monologue languages. First step towards scalable post-neural methods, for a new era in AI 🌌 https://t.co/kAcc7YfKeo」 / X)、Mamba3(著者不明だがMamba-3: Improved Sequence Modeling using State Space Principles | OpenReview)にも注目という感じ。SSMとTransformerハイブリッドの小型推論モデル、ai21labs/AI21-Jamba-Reasoning-3B · Hugging Faceも高性能そうでSSMの発展には期待が大きい。
毎年恒例の🪩 The State of AI Report 2025 🪩をみつつ(一部微妙な記載もあるが)研究の進展が速いのと、応用領域が広がっていることを感じている。International Astronomy & Astrophysics OlympiadでLLMが好成績をおさめる報告も興味深い。
- Large Language Models Achieve Gold Medal Performance at International Astronomy & Astrophysics Olympiad [43.5]
我々は,国際天文学・天体物理学試験(IOAA)において,5つの大きな言語モデル(LLM)をベンチマークした。 平均スコアは85.6%、84.2%で、ジェミニ2.5 ProとGPT-5は4つのIOAA理論試験で200-300人中上位2位にランクインした。 GPT-5は88.5%のスコアで試験に合格しており、最新の4つのIOAAの参加者の中ではトップ10にランクインしている。
論文 参考訳(メタデータ) (Mon, 06 Oct 2025 16:58:47 GMT)
SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models
- SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models [158.2]
現在の大規模言語モデル (LLM) と音声言語モデル (SLM) は、ユーザがターンを終えた後にのみ、思考と行動を取る。 これにより、モデルがユーザのターン中に対話するのを防ぎ、考えるのを待つ間、レスポンスのレイテンシが高くなります。 SHANKSは,ユーザ入力を聴きながら,無意味な連鎖推論をSLMが生成できるフレームワークである。
論文 参考訳(メタデータ) (Wed, 08 Oct 2025 11:48:59 GMT) - 「a general framework for SLMs that enables thinking while listening. To the best of our knowledge, we are the first to explore generating unspoken CoT reasoning when the user is still speaking.」とユーザ入力を受けながら同時に考えるフレームワークの提案。同時通訳のみならず応用領域が広そう。
- リポジトリはSHANKS (シャンクス)
Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning
- Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。 M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (Wed, 08 Oct 2025 17:55:02 GMT) - 「We propose M-Thinker, which both achieves the input-output language consistency with a Language Consistency reward and enhances the multilingual reasoning performance with a Cross-lingual Thinking Alignment reward.」と入力・思考・出力で言語を一致させる手法の提案。性能向上につながる場合もありそうなのが興味深い。
- リポジトリはGitHub – XZhang00/M-Thinker: Code for “Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning”.
Less is More: Recursive Reasoning with Tiny Networks
- Less is More: Recursive Reasoning with Tiny Networks [6.3]
階層推論モデル(Hierarchical Reasoning Model, HRM)は、異なる周波数で再帰する2つの小さなニューラルネットワークを用いた新しいアプローチである。 小型ネットワークの難題を解決するために,Tiny Recursive Model (TRM)を提案する。 TRMはARC-AGI-1で45%、ARC-AGI-2で8%の精度を達成した。
論文 参考訳(メタデータ) (Mon, 06 Oct 2025 14:58:08 GMT) - 特化型の推論モデルの提案、ARC-AGIと数独で効果を検証。
- 「Contrary to the Hierarchical Reasoning Model (HRM), TRM requires no fixed-point theorem, no complex biological justifications, and no hierarchy.」という記載が面白い。
WALT: Web Agents that Learn Tools
- WALT: Web Agents that Learn Tools [66.7]
WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。 WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。 VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
論文 参考訳(メタデータ) (Wed, 01 Oct 2025 23:41:47 GMT) - 「instead of reasoning about how to click and type, agents simply call search(query) or create(listing). This shifts the computational burden from fragile step- by-step reasoning to reliable tool invocation.」というアプローチによるWEBエージェントの構築。
- この手のエージェントが流行るとWEBサイトのあり方も変わっていくように思う。
TimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis
- TimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis [25.4]
TimeSeriesScientist(TSci)は時系列予測のための一般的なドメインに依存しないフレームワークである。 これはそれぞれ平均10.4%と38.2%の予測誤差を減少させる。 透明な自然言語の合理性と包括的な報告により、TSciは予測をホワイトボックスシステムに変換する。
論文 参考訳(メタデータ) (Thu, 02 Oct 2025 00:18:59 GMT) - 「Upon receiving input time series data, the framework executes a structured four-agent workflow. Curator generates analytical reports (Section 3.2), Planner selects model configurations through reasoning and validation (Section 3.3), Forecaster integrates model results to produce the final forecast (Section 3.4), Reporter generates a comprehensive report as the final output of our framework (Section 3.5).」という時系列分析のエージェントフレームワーク
- プロジェクトサイトはTimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis