AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond 

  • AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond [101.2]
    AccidentBenchは、自動車事故シナリオとBeyondドメインを組み合わせた大規模なベンチマークである。 このベンチマークには、約2000のビデオと19000以上の人間による質問応答ペアが含まれている。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 17:59:13 GMT)
  • 事故シナリオのベンチマーク、「AccidentBench targets understanding and reasoning across diverse vehicle accident scenarios (83.0%), while also encompassing airspace (10.2%) and waterway (6.8%) domains, in which safety, perception, and decision-making are deeply interdependent. Unlike benchmarks that emphasize isolated skills or single domains, AccidentBench systematically challenges models across several critical understanding and reasoning capabilities: temporal understanding and reasoning (tracking event sequences and causality over extended periods); spatial understanding and reasoning (understanding dynamic spatial relationships and multi-agent trajectories); and intent and goal reasoning (inferring agent intentions and planning goals), which further includes complex strategic and counterfactual reasoning (evaluating higher-order strategies, action implications, and “what-if” scenarios).」
  • リポジトリはGitHub – SafeRL-Lab/AccidentBench: AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond

Agent Learning via Early Experience 

  • Agent Learning via Early Experience [93.8]
    言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。 現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。 本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 17:59:17 GMT)
  • 「We address this limitation with a middle-ground paradigm we call early experience: interaction data generated by the agent’s own actions, where the resulting future states serve as supervision without reward signals. Within this paradigm we study two strategies of using such data: (1) Implicit world modeling, which uses collected states to ground the policy in environment dynamics; and (2) Self-reflection, where the agent learns from its suboptimal actions to improve reasoning and decision-making.」とSFTに代わるトレーニング手法を提案。

LLM/Agent-as-Data-Analyst: A Survey

  • LLM/Agent-as-Data-Analyst: A Survey [51.2]
    大規模言語モデル(LLM)とデータ分析のためのエージェント技術は、学術と産業の両方に大きな影響を与えている。 この技術進化は、インテリジェントなデータ分析エージェントのための5つの重要な設計目標、すなわちセマンティック・アウェア・デザイン、ハイブリッド統合、自律パイプライン、ツールの拡張されたモダリティ、オープンワールドタスクのサポートをさらに強化する。
    論文  参考訳(メタデータ)   (Sun, 28 Sep 2025 17:31:38 GMT)
  • データ分析のためのエージェントに関するサーベイ
  • リポジトリも用意されている GitHub – weAIDB/awesome-data-llm: Official Repository of “LLM × DATA” Survey Paper

Imperceptible Jailbreaking against Large Language Models

  • Imperceptible Jailbreaking against Large Language Models [107.8]
    変分セレクタと呼ばれるUnicode文字のクラスを利用する非受容ジェイルブレイクを導入する。 目に見えない変分セレクタを悪意のある質問に追加することで、ジェイルブレイクプロンプトは画面上の元の悪意のある質問と視覚的に同じように見える。 本研究では,このような逆接尾辞を生成し,有害な応答を誘導する探索パイプラインを提案する。
    論文  参考訳(メタデータ)   (Mon, 06 Oct 2025 17:03:50 GMT)
  • 目に見えないUnicode文字を使った imperceptible jailbreaksの提案。
  • リポジトリはGitHub – sail-sg/imperceptible-jailbreaks: [ArXiv 2025] Imperceptible Jailbreaking against Large Language Models

AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning

Artificial Hippocampus Networks for Efficient Long-Context Modeling

  • Artificial Hippocampus Networks for Efficient Long-Context Modeling [17.2]
    ロングシーケンス・モデリングは、RNNのようなモデルにおける圧縮固定サイズメモリの効率と、注目ベースのトランスフォーマーにおけるメモリの増大の忠実さとのトレードオフに直面している。 認知科学における多段階モデルに着想を得て,人工ニューラルネットワークのメモリフレームワークを導入する。 長文ベンチマークのLV-EvalとInfiniteBenchの実験は、AHN拡張モデルがスライディングウインドウベースラインを一貫して上回ることを示した。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 17:59:55 GMT)
  • 「AHNs address the efficiency limitation of standard transformers by maintaining a sliding window of KV cache as lossless memory while transforming out-of-window information into a fixed-size compressed memory This approach enables AHN-augmented models to achieve constant memory and computational complexity per token over long sequences. Experiments」と長文に強い構造の提案。
  • リポジトリはGitHub – ByteDance-Seed/AHN: AHN: Artificial Hippocampus Networks for Efficient Long-Context Modeling

Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails 

  • Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.1]
    本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。 ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。 実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
    論文  参考訳(メタデータ)   (Mon, 06 Oct 2025 14:48:39 GMT)
  • 「Our research reveals a critical vulnerability in self-evolving LLM agents, which we term the “Alignment Tipping Process” (ATP), a phenomenon where an agent’s policy suddenly shifts from human- aligned objectives to self-serving, locally optimal behaviors. Driven either by an individual agent’s self-interested exploration or by the imitative diffusion of strategies within a group, our experiments consistently demonstrate that alignment is not a static property, but rather a fragile state actively eroded by experience.」と自己進化型エージェントでのリスクを指摘。最近出た250例程度のPoisoning Attackが有効という報告(下記)も関連し、意外とこの手の攻撃が容易そうに思える。
  • リポジトリはGitHub – aiming-lab/ATP: Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
  • Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples [81.7]
    この研究は、データセットのサイズに関わらず、毒殺攻撃がほぼ一定数のドキュメントを必要とすることを初めて実証した。 250の有毒なドキュメントも同様に、すべてのモデルとデータセットサイズにわたってモデルを妥協している。 以上の結果から,データ中毒によるバックドア注入は,従来考えられていたよりも大型モデルの方が容易である可能性が示唆された。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 16:25:05 GMT)
  • データポイゾニングが意外と容易にできるとの報告。

In-Context Clustering with Large Language Models

  • In-Context Clustering with Large Language Models [50.3]
    ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。 事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。 我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 17:07:55 GMT)
  • LLMの内部知識を用いたクラスタリングモデルの提案。fine tuningによって性能を大きく向上させている。軸設定が強力にできるのが素晴らしい。
  • プロジェクトサイトはIn-Context Clustering

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models 

  • Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models [18.8]
    ACE(Agentic Context Engineering)は、コンテキストを進化するプレイブックとして扱うフレームワークである。 エージェントとドメイン固有のベンチマークを通じて、ACEは一貫して強力なベースラインを上回っている。 ACEは、ラベル付けされた監視なしに効果的に適応することができ、代わりに自然な実行フィードバックを活用することができる。
    論文  参考訳(メタデータ)   (Mon, 06 Oct 2025 09:30:18 GMT)
  • 「We present ACE (Agentic Context Engineering), a framework for scalable and efficient context adaptation in both offline (e g , system prompt optimization) and online (e g , test-time memory adaptation) scenarios. Instead of condensing knowledge into terse summaries or static instructions, ACE treats contexts as evolving playbooks that continuously accumulate, refine, and organize strategies over time.」とこちらもコンテキストを記憶のように使い自己改善するアプローチに見える。

When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs

  • When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs [64.3]
    最近のLong-Context Language Modelsは、1つのプロンプトで数十万のトークンを処理することができる。 我々は、従来の問題解決トレースから導かれた再利用可能な思考キャッシュとして、推論をリキャストする。 本稿では,自然言語フィードバックによって学習データから得られるテンプレートを反復的に洗練する更新戦略を提案する。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 19:52:35 GMT)
  • 「Thought Template Augmented LCLMs (TOTAL), that equips long- context models with reusable reasoning patterns and iteratively refines them through natural language feedback.」というアプローチの提案。ロングコンテキストをうまく使う記憶というイメージだろうか。
  • リポジトリはhttps://github.com/starsuzi/ToTALとのことだが現時点では404