Muon Outperforms Adam in Tail-End Associative Memory Learning

  • Muon Outperforms Adam in Tail-End Associative Memory Learning [119.0]
    機能埋め込みにかかわらず,Muonはクラス間のバランスの取れた学習を一貫して達成している。 我々の経験的観察と理論的分析により、ムオンの核となる利点が明らかとなり、その更新規則は線形連想記憶の外積構造と一致している。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 10:04:08 GMT)
  • 採用例が増えているオプティマイザ、Muonの分析。「The Muon update rule is aligned with the outer-product structure of linear assciative memories, enabling more balanced and effective learning of tail classes in heavy-tailed distributions as compared with Adam.」

LLM-based Agents Suffer from Hallucinations: A Survey of Taxonomy, Methods, and Directions

  • LLM-based Agents Suffer from Hallucinations: A Survey of Taxonomy, Methods, and Directions [80.1]
    LLMをベースとした幻覚の包括的調査を行った。 そこで本研究では,異なる段階において発生するさまざまな種類の幻覚を識別する新しい分類法を提案する。 エージェント幻覚の出現の根底にある18の要因について詳細な検討を行った。
    論文  参考訳(メタデータ)   (Tue, 23 Sep 2025 13:24:48 GMT)
  • 「This paper presents a comprehensive survey of hallucination issues in LLM-based agents, with the goal of consolidating past progress, clarifying current challenges, and outlining future opportunities. We begin by distinguishing agent components into internal states and external behaviors, and, from this perspective, propose a taxonomy of hallucination types occurring at different stages.」とLLM based agentsが苦労している点の整理

Mem-α: Learning Memory Construction via Reinforcement Learning 

  • Mem-α: Learning Memory Construction via Reinforcement Learning [20.9]
    大きな言語モデル(LLM)エージェントは、限られたコンテキストウィンドウによって制約される。 現在のメモリ拡張エージェントは、メモリ更新のための事前に定義された命令とツールに依存している。 Mem-alphaは、エージェントに複雑なメモリシステムを効果的に管理するように訓練する強化学習フレームワークである。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 08:02:34 GMT)
  • システムプロンプト等で処理を行うメモリ管理エージェントでは限界があるためメモリ管理戦略を学ぶよう強化学習を活用するアプローチを提案「we propose Mem-α, a reinforcement learning framework that trains agents to effectively manage complex memory systems through interaction and feedback. 」
  • 「Empirical evaluation demonstrates that Mem-α achieves significant improvements over existing memory-augmented agent baselines across diverse benchmarks. Most remarkably, despite being trained exclusively on instances with a maximum length of 30k tokens, our agents exhibit robust generalization to sequences exceeding 400k tokens, over 13× the training length.」というのも興味深い。
  • リポジトリはGitHub – wangyu-ustc/Mem-alpha: Learning Memory Construction via Reinforcement Learning

On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub 

  • On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7]
    大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。 自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。 エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
    論文  参考訳(メタデータ)   (Thu, 18 Sep 2025 08:48:32 GMT)
  • ソフトウェア開発エージェントの利用実態に関する調査・報告。「Our findings show that while Agentic-PRs are accepted at a lower rate than Human-PRs (83.8% vs. 91.0%), they are still widely adopted in real-world projects. 」とかなりつかわれている・受け入れられている印象。
  • リポジトリはGitHub – mmikuu/OnTheUseOfAgenticCoding

PAL-UI: Planning with Active Look-back for Vision-Based GUI Agents

  • PAL-UI: Planning with Active Look-back for Vision-Based GUI Agents [151.9]
    PAL-UI (Planning with Active Look-back) を提案する。 PAL-UIは、二重レベルの要約エージェントを組み合わせ、観察レベルの手がかりとアクションレベルの結果の両方を、専用の検索ツールと組み合わせる。
    論文  参考訳(メタデータ)   (Wed, 01 Oct 2025 01:48:39 GMT)
  • 振り返りに相当するPAL(Planning with Active Look-back)を組み込んだエージェントの提案、「PAL-UI significantly outperforms both base MLLMs and state-of-the-art baselines on mobile navigation benchmarks, while also general- izing well to out-of-domain web environments. These results underscore the importance of active memory retrieval for robust GUI planning. Future work will explore extending PAL-UI to more complex tasks and environments, integrating reinforcement learning objectives, and broadening its applicability to real-world interactive systems.」とのこと。

Can Mamba Learn In Context with Outliers? A Theoretical Generalization Analysis / Trained Mamba Emulates Online Gradient Descent in In-Context Linear Regression

  • Can Mamba Learn In Context with Outliers? A Theoretical Generalization Analysis [88.1]
    MambaモデルはTransformerベースのモデルよりも計算上の優位性に大きく注目されている。 本稿では,一層マンバモデルのトレーニング力学に関する最初の理論的解析を行った。 マムバは、より多くのトレーニングを必要とするかもしれないが、線形変換器が許容できるしきい値を超える場合であっても、正確な予測を保っている。
    論文  参考訳(メタデータ)   (Wed, 01 Oct 2025 01:25:01 GMT)
  • Mambaの理論的解析、「While linear Transformers may converge faster with smaller batch sizes, they can only in-context generalize effectively when the fraction of outlier-containing context examples is less than 1/2, much less than that for Mamba. Moreover, linear Transformers require significantly more context examples than Mamba to achieve comparable generalization performance. This highlights Mamba’s superior robustness to a high density of outliers in ICL.」というのは面白い特徴
  • Trained Mamba Emulates Online Gradient Descent in In-Context Linear Regression [90.9]
    Mambaは、Long-Sequence Modelingのための線形複雑性を持つ効率的なTransformer代替品である。 最近の実証研究は、Mambaのテキスト内学習(ICL)がTransformersと競合していることを示している。 本稿では,線形回帰 ICL タスクにおける Mamba のトレーニングダイナミクスについて検討する。
    論文  参考訳(メタデータ)   (Sun, 28 Sep 2025 09:48:49 GMT)
  • 「The loss bound is comparable to that of Transformer. Our theoretical results reveal the different mechanism between Transformer and Mamba on ICL, where Mamba emulates a variant of online gradient descent to perform in-context, while Transformers approximate a single step of gradient descent. Furthermore, our comparison with the S4 model demonstrates that the selection components are essential for Mamba to perform ICL.」とこちらも面白い指摘

Sora 2, Claude Sonnet 4.5, GLM-4.6, DeepSeek v3.2-exp, HunyuanImage 3.0

先週の大きなニュースはOpenAIによるSora 2.0の発表だった(Sora 2 is here | OpenAI)。ビデオ生成モデルには様々なタスクを解ける可能性(Video models are zero-shot learners and reasoners – arXiv最新論文の紹介)やWorld modelとしての可能性(V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning – arXiv最新論文の紹介SimVS: Simulating World Inconsistencies for Robust View Synthesis  – arXiv最新論文の紹介How Far is Video Generation from World Model: A Physical Law Perspective – arXiv最新論文の紹介など)が指摘されていてニュースリリースの中にも言及がある。

AnthropicのClaude Sonnet 4.5も発表されている(Introducing Claude Sonnet 4.5 \ Anthropic)。着実な進化と言えそうな結果。

GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilitiesdeepseek-ai/DeepSeek-V3.2-Exp · Hugging Faceなど公開モデルのアップデートも要注目。GitHub – Tencent-Hunyuan/HunyuanImage-3.0: HunyuanImage-3.0: A Powerful Native Multimodal Model for Image GenerationについてはarXivに論文が公開されていた。

  • HunyuanImage 3.0 Technical Report [108.4]
    HunyuanImage 3.0は、自動回帰フレームワーク内でのマルチモーダル理解と生成を統合する、ネイティブなマルチモーダルモデルである。 HunyuanImage 3.0は、これまでで最大かつ最も強力なオープンソース画像生成モデルである。
    論文  参考訳(メタデータ)   (Sun, 28 Sep 2025 16:14:10 GMT)
  • 非常に強力な画像系公開モデル
  • モデルはtencent/HunyuanImage-3.0 · Hugging Face

MuSLR: Multimodal Symbolic Logical Reasoning 

  • MuSLR: Multimodal Symbolic Logical Reasoning [133.9]
    マルチモーダルな論理的推論は、自律運転や診断などの高度な応用において重要である。 形式論理規則を基礎としたマルチモーダルな記号論理的推論のための最初のベンチマーク Mu SLR を導入する。 我々は,GPT-4.1のChain-of-Thought性能を14.13%向上させるモジュール型フレームワークであるLogiCAMを提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 06:42:20 GMT)
  • Multimodal symbolic logical reasoningを対象とするベンチマークMuSLRの構築。またベースラインとしてモジュラー構成のLogiCAMを提案している。現在のフロンティアなモデルでも難しいベンチマークのよう。
  • 改善のための「First, integrating dedicated symbolic modules is essential: the LogiCAM outperforms base VLMs precisely because it extracts multimodalities based on logic and embeds explicit symbolic reasoning steps. Second, existing VLMs struggle to align and fuse visual and textual information when performing formal logic; Future work should explore tighter multimodal integration, such as cross-modal architectures trained with logic-grounded objectives, to bridge this gap.」という指摘が興味深く、現行モデルは形式的な処理に苦労しているように見える。
  • リポジトリはMuSLR: Multimodal Symbolic Logical Reasoning

Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents 

  • Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents [79.8]
    Ferret-UI Liteは、様々なプラットフォームで動作する、コンパクトでエンドツーエンドのGUIエージェントである。 Ferret-UI Liteは、他の小規模GUIエージェントとの競合性能を達成する。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 17:13:56 GMT)
  • AppleによるGUIエージェントの報告、「In this work, we present Ferret-UI Lite, a 3B multimodal LLM designed for GUI agentic tasks with a focus on lightweight, on-device settings. Through real and synthetic data curation, inference-time visual tool use, and a two-stage SFT–RL training strategy, Ferret-UI Lite achieves competitive grounding and navigation performance relative to larger models.」と小型のモデル。

MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing