Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles 

  • Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.9]
    SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。 本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
    論文  参考訳(メタデータ)   (Thu, 25 Sep 2025 11:36:09 GMT)
  • 「This paper introduced SciTrek, a benchmark designed for testing the ability of LLMs to perform multi-document information synthesis and structured reasoning over full-text scientific articles. 」と科学分野のマルチドキュメント・長文ベンチマーク。
  • リポジトリはGitHub – oaimli/SciTrek: Benchmarking long-context language models on scientific articles

InfoAgent: Advancing Autonomous Information-Seeking Agents

  • InfoAgent: Advancing Autonomous Information-Seeking Agents [143.2]
    本稿では,革新的なデータ合成パイプラインとWeb検索ツールを駆使したディープリサーチエージェントInfoAgentを紹介する。 我々の方法では、InfoAgentはBrowseCompで15.3%、BrowseComp-ZHで29.2%、Xbench-DSで40.4%の精度を達成した。
    論文  参考訳(メタデータ)   (Mon, 29 Sep 2025 17:59:57 GMT)
  • Deep Researchエージェントの構築。Qwen3 14Bベースで合成データを活用、「In the first stage, we perform supervised finetuning (SFT) as a cold start, in order to instill long-horizon search behavior into the model.」、「In the second stage, we apply RL to refine its ability of reasoning-driven tool use.」の2段階でのpost training。
  • 合成データ、post trainingの有効性を示す結果で、ベースモデルサイズもお手頃感がある。このようなSLMの開発が流行っていく可能性を感じる結果。

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents 

  • Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents [58.7]
    エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。 我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLLM上に構築されたエージェントにも影響を及ぼすことが判明した。 我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 14:55:55 GMT)
  • 「(1) In model evolution, we assess whether self-evolving agents compromise their safety alignment after self-updating their model parameters. (2) In memory evolution, we test whether memory-augmented agents learn undesirable preferences or degrade their risk awareness while accumulating experience into memory. (3) In tool evolution, we evaluate whether agents will spontaneously induce risks in the tool creation-reuse loop, and test agents’ ability to reject appealing but potentially malicious tools retrieved from the Internet. (4) In workflow evolution, we analyze whether automatically adjusted workflows can lead to safety decay.」と4つの観点からMisevolveを評価。現実的な問題であると指摘。
  • リポジトリはGitHub – ShaoShuai0605/Misevolution: Official Repo of Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Muon Outperforms Adam in Tail-End Associative Memory Learning

  • Muon Outperforms Adam in Tail-End Associative Memory Learning [119.0]
    機能埋め込みにかかわらず,Muonはクラス間のバランスの取れた学習を一貫して達成している。 我々の経験的観察と理論的分析により、ムオンの核となる利点が明らかとなり、その更新規則は線形連想記憶の外積構造と一致している。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 10:04:08 GMT)
  • 採用例が増えているオプティマイザ、Muonの分析。「The Muon update rule is aligned with the outer-product structure of linear assciative memories, enabling more balanced and effective learning of tail classes in heavy-tailed distributions as compared with Adam.」

LLM-based Agents Suffer from Hallucinations: A Survey of Taxonomy, Methods, and Directions

  • LLM-based Agents Suffer from Hallucinations: A Survey of Taxonomy, Methods, and Directions [80.1]
    LLMをベースとした幻覚の包括的調査を行った。 そこで本研究では,異なる段階において発生するさまざまな種類の幻覚を識別する新しい分類法を提案する。 エージェント幻覚の出現の根底にある18の要因について詳細な検討を行った。
    論文  参考訳(メタデータ)   (Tue, 23 Sep 2025 13:24:48 GMT)
  • 「This paper presents a comprehensive survey of hallucination issues in LLM-based agents, with the goal of consolidating past progress, clarifying current challenges, and outlining future opportunities. We begin by distinguishing agent components into internal states and external behaviors, and, from this perspective, propose a taxonomy of hallucination types occurring at different stages.」とLLM based agentsが苦労している点の整理

Mem-α: Learning Memory Construction via Reinforcement Learning 

  • Mem-α: Learning Memory Construction via Reinforcement Learning [20.9]
    大きな言語モデル(LLM)エージェントは、限られたコンテキストウィンドウによって制約される。 現在のメモリ拡張エージェントは、メモリ更新のための事前に定義された命令とツールに依存している。 Mem-alphaは、エージェントに複雑なメモリシステムを効果的に管理するように訓練する強化学習フレームワークである。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 08:02:34 GMT)
  • システムプロンプト等で処理を行うメモリ管理エージェントでは限界があるためメモリ管理戦略を学ぶよう強化学習を活用するアプローチを提案「we propose Mem-α, a reinforcement learning framework that trains agents to effectively manage complex memory systems through interaction and feedback. 」
  • 「Empirical evaluation demonstrates that Mem-α achieves significant improvements over existing memory-augmented agent baselines across diverse benchmarks. Most remarkably, despite being trained exclusively on instances with a maximum length of 30k tokens, our agents exhibit robust generalization to sequences exceeding 400k tokens, over 13× the training length.」というのも興味深い。
  • リポジトリはGitHub – wangyu-ustc/Mem-alpha: Learning Memory Construction via Reinforcement Learning

On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub 

  • On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7]
    大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。 自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。 エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
    論文  参考訳(メタデータ)   (Thu, 18 Sep 2025 08:48:32 GMT)
  • ソフトウェア開発エージェントの利用実態に関する調査・報告。「Our findings show that while Agentic-PRs are accepted at a lower rate than Human-PRs (83.8% vs. 91.0%), they are still widely adopted in real-world projects. 」とかなりつかわれている・受け入れられている印象。
  • リポジトリはGitHub – mmikuu/OnTheUseOfAgenticCoding

PAL-UI: Planning with Active Look-back for Vision-Based GUI Agents

  • PAL-UI: Planning with Active Look-back for Vision-Based GUI Agents [151.9]
    PAL-UI (Planning with Active Look-back) を提案する。 PAL-UIは、二重レベルの要約エージェントを組み合わせ、観察レベルの手がかりとアクションレベルの結果の両方を、専用の検索ツールと組み合わせる。
    論文  参考訳(メタデータ)   (Wed, 01 Oct 2025 01:48:39 GMT)
  • 振り返りに相当するPAL(Planning with Active Look-back)を組み込んだエージェントの提案、「PAL-UI significantly outperforms both base MLLMs and state-of-the-art baselines on mobile navigation benchmarks, while also general- izing well to out-of-domain web environments. These results underscore the importance of active memory retrieval for robust GUI planning. Future work will explore extending PAL-UI to more complex tasks and environments, integrating reinforcement learning objectives, and broadening its applicability to real-world interactive systems.」とのこと。

Can Mamba Learn In Context with Outliers? A Theoretical Generalization Analysis / Trained Mamba Emulates Online Gradient Descent in In-Context Linear Regression

  • Can Mamba Learn In Context with Outliers? A Theoretical Generalization Analysis [88.1]
    MambaモデルはTransformerベースのモデルよりも計算上の優位性に大きく注目されている。 本稿では,一層マンバモデルのトレーニング力学に関する最初の理論的解析を行った。 マムバは、より多くのトレーニングを必要とするかもしれないが、線形変換器が許容できるしきい値を超える場合であっても、正確な予測を保っている。
    論文  参考訳(メタデータ)   (Wed, 01 Oct 2025 01:25:01 GMT)
  • Mambaの理論的解析、「While linear Transformers may converge faster with smaller batch sizes, they can only in-context generalize effectively when the fraction of outlier-containing context examples is less than 1/2, much less than that for Mamba. Moreover, linear Transformers require significantly more context examples than Mamba to achieve comparable generalization performance. This highlights Mamba’s superior robustness to a high density of outliers in ICL.」というのは面白い特徴
  • Trained Mamba Emulates Online Gradient Descent in In-Context Linear Regression [90.9]
    Mambaは、Long-Sequence Modelingのための線形複雑性を持つ効率的なTransformer代替品である。 最近の実証研究は、Mambaのテキスト内学習(ICL)がTransformersと競合していることを示している。 本稿では,線形回帰 ICL タスクにおける Mamba のトレーニングダイナミクスについて検討する。
    論文  参考訳(メタデータ)   (Sun, 28 Sep 2025 09:48:49 GMT)
  • 「The loss bound is comparable to that of Transformer. Our theoretical results reveal the different mechanism between Transformer and Mamba on ICL, where Mamba emulates a variant of online gradient descent to perform in-context, while Transformers approximate a single step of gradient descent. Furthermore, our comparison with the S4 model demonstrates that the selection components are essential for Mamba to perform ICL.」とこちらも面白い指摘

Sora 2, Claude Sonnet 4.5, GLM-4.6, DeepSeek v3.2-exp, HunyuanImage 3.0

先週の大きなニュースはOpenAIによるSora 2.0の発表だった(Sora 2 is here | OpenAI)。ビデオ生成モデルには様々なタスクを解ける可能性(Video models are zero-shot learners and reasoners – arXiv最新論文の紹介)やWorld modelとしての可能性(V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning – arXiv最新論文の紹介SimVS: Simulating World Inconsistencies for Robust View Synthesis  – arXiv最新論文の紹介How Far is Video Generation from World Model: A Physical Law Perspective – arXiv最新論文の紹介など)が指摘されていてニュースリリースの中にも言及がある。

AnthropicのClaude Sonnet 4.5も発表されている(Introducing Claude Sonnet 4.5 \ Anthropic)。着実な進化と言えそうな結果。

GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilitiesdeepseek-ai/DeepSeek-V3.2-Exp · Hugging Faceなど公開モデルのアップデートも要注目。GitHub – Tencent-Hunyuan/HunyuanImage-3.0: HunyuanImage-3.0: A Powerful Native Multimodal Model for Image GenerationについてはarXivに論文が公開されていた。

  • HunyuanImage 3.0 Technical Report [108.4]
    HunyuanImage 3.0は、自動回帰フレームワーク内でのマルチモーダル理解と生成を統合する、ネイティブなマルチモーダルモデルである。 HunyuanImage 3.0は、これまでで最大かつ最も強力なオープンソース画像生成モデルである。
    論文  参考訳(メタデータ)   (Sun, 28 Sep 2025 16:14:10 GMT)
  • 非常に強力な画像系公開モデル
  • モデルはtencent/HunyuanImage-3.0 · Hugging Face