Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors

  • Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors [45.4]
    大規模言語モデル(LLM)は、ユーザ入力を持つマルチリンガルな実世界のアプリケーションにますます多くデプロイされている。 ほとんどのベンチマークはクリーンな入力を前提としており、LLMの堅牢性は、ほとんど探索されていないタイプミスに委ねられている。 MulTypoは,言語固有のキーボードレイアウトとタイピング行動に基づいて,ヒューマンライクなエラーをシミュレートする多言語型タイポ生成アルゴリズムである。
    論文  参考訳(メタデータ)   (Fri, 10 Oct 2025 16:49:12 GMT)
  • タイプミスがLLMのパフォーマンスにどのくらい影響を与えるかの評価、「Our results show that typos consistently degrade performance, particularly in generative tasks and those requiring reasoning – while the natural language inference task is comparatively more robust.」とのこと。日本語での影響が気になる。
  • リポジトリはGitHub – mainlp/Multypo-Eval

Qwen3Guard Technical Report

  • Qwen3Guard Technical Report [127.7]
    Qwen3Guardは、多言語安全ガードレールモデルである。 生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。 Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
    論文  参考訳(メタデータ)   (Thu, 16 Oct 2025 04:00:18 GMT)
  • 「we present Qwen3Guard, a series of multilingual safety guardrail models with two specialized variants: Generative Qwen3Guard, which casts safety classification as an instruction-following task to enable fine-grained tri-class judgments (safe, controversial, unsafe); and Stream Qwen3Guard, which introduces a token-level classification head for real-time safety monitoring during incremental text generation. Both variants are available in three sizes (0.6B, 4B, and 8B parameters) and support up to 119 languages and dialects, providing comprehensive, scalable, and low-latency safety moderation for global LLM deployments.」とQwen3ベースのガードレールもモデル。
  • リポジトリはGitHub – QwenLM/Qwen3Guard: Qwen3Guard is a multilingual guardrail model series developed by the Qwen team at Alibaba Cloud.

Self-Improving LLM Agents at Test-Time

  • Self-Improving LLM Agents at Test-Time [49.9]
    言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。 実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。 テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 06:37:35 GMT)
  • 「(i) identify uncertain samples via a novel uncertainty estimator, (ii) generate new training instances similar to these samples, and (iii) update the model online.」というステップからなるself improvement。「Test-Time Self-Improvement (TT-SI), where the model trains on self-generated samples using parameter efficient fine-tuning techniques (PEFT) (Hu et al , 2022), and Test-Time Distillation (TT-D) where adaptation is guided by supervision from samples synthesized by a more capable teacher model.」の2種類を検討している(後者はself-improvingなのか若干疑問ではあるが。。)

AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond 

  • AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond [101.2]
    AccidentBenchは、自動車事故シナリオとBeyondドメインを組み合わせた大規模なベンチマークである。 このベンチマークには、約2000のビデオと19000以上の人間による質問応答ペアが含まれている。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 17:59:13 GMT)
  • 事故シナリオのベンチマーク、「AccidentBench targets understanding and reasoning across diverse vehicle accident scenarios (83.0%), while also encompassing airspace (10.2%) and waterway (6.8%) domains, in which safety, perception, and decision-making are deeply interdependent. Unlike benchmarks that emphasize isolated skills or single domains, AccidentBench systematically challenges models across several critical understanding and reasoning capabilities: temporal understanding and reasoning (tracking event sequences and causality over extended periods); spatial understanding and reasoning (understanding dynamic spatial relationships and multi-agent trajectories); and intent and goal reasoning (inferring agent intentions and planning goals), which further includes complex strategic and counterfactual reasoning (evaluating higher-order strategies, action implications, and “what-if” scenarios).」
  • リポジトリはGitHub – SafeRL-Lab/AccidentBench: AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond

Agent Learning via Early Experience 

  • Agent Learning via Early Experience [93.8]
    言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。 現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。 本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 17:59:17 GMT)
  • 「We address this limitation with a middle-ground paradigm we call early experience: interaction data generated by the agent’s own actions, where the resulting future states serve as supervision without reward signals. Within this paradigm we study two strategies of using such data: (1) Implicit world modeling, which uses collected states to ground the policy in environment dynamics; and (2) Self-reflection, where the agent learns from its suboptimal actions to improve reasoning and decision-making.」とSFTに代わるトレーニング手法を提案。

LLM/Agent-as-Data-Analyst: A Survey

  • LLM/Agent-as-Data-Analyst: A Survey [51.2]
    大規模言語モデル(LLM)とデータ分析のためのエージェント技術は、学術と産業の両方に大きな影響を与えている。 この技術進化は、インテリジェントなデータ分析エージェントのための5つの重要な設計目標、すなわちセマンティック・アウェア・デザイン、ハイブリッド統合、自律パイプライン、ツールの拡張されたモダリティ、オープンワールドタスクのサポートをさらに強化する。
    論文  参考訳(メタデータ)   (Sun, 28 Sep 2025 17:31:38 GMT)
  • データ分析のためのエージェントに関するサーベイ
  • リポジトリも用意されている GitHub – weAIDB/awesome-data-llm: Official Repository of “LLM × DATA” Survey Paper

Imperceptible Jailbreaking against Large Language Models

  • Imperceptible Jailbreaking against Large Language Models [107.8]
    変分セレクタと呼ばれるUnicode文字のクラスを利用する非受容ジェイルブレイクを導入する。 目に見えない変分セレクタを悪意のある質問に追加することで、ジェイルブレイクプロンプトは画面上の元の悪意のある質問と視覚的に同じように見える。 本研究では,このような逆接尾辞を生成し,有害な応答を誘導する探索パイプラインを提案する。
    論文  参考訳(メタデータ)   (Mon, 06 Oct 2025 17:03:50 GMT)
  • 目に見えないUnicode文字を使った imperceptible jailbreaksの提案。
  • リポジトリはGitHub – sail-sg/imperceptible-jailbreaks: [ArXiv 2025] Imperceptible Jailbreaking against Large Language Models

AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning

Artificial Hippocampus Networks for Efficient Long-Context Modeling

  • Artificial Hippocampus Networks for Efficient Long-Context Modeling [17.2]
    ロングシーケンス・モデリングは、RNNのようなモデルにおける圧縮固定サイズメモリの効率と、注目ベースのトランスフォーマーにおけるメモリの増大の忠実さとのトレードオフに直面している。 認知科学における多段階モデルに着想を得て,人工ニューラルネットワークのメモリフレームワークを導入する。 長文ベンチマークのLV-EvalとInfiniteBenchの実験は、AHN拡張モデルがスライディングウインドウベースラインを一貫して上回ることを示した。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 17:59:55 GMT)
  • 「AHNs address the efficiency limitation of standard transformers by maintaining a sliding window of KV cache as lossless memory while transforming out-of-window information into a fixed-size compressed memory This approach enables AHN-augmented models to achieve constant memory and computational complexity per token over long sequences. Experiments」と長文に強い構造の提案。
  • リポジトリはGitHub – ByteDance-Seed/AHN: AHN: Artificial Hippocampus Networks for Efficient Long-Context Modeling

Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails 

  • Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.1]
    本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。 ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。 実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
    論文  参考訳(メタデータ)   (Mon, 06 Oct 2025 14:48:39 GMT)
  • 「Our research reveals a critical vulnerability in self-evolving LLM agents, which we term the “Alignment Tipping Process” (ATP), a phenomenon where an agent’s policy suddenly shifts from human- aligned objectives to self-serving, locally optimal behaviors. Driven either by an individual agent’s self-interested exploration or by the imitative diffusion of strategies within a group, our experiments consistently demonstrate that alignment is not a static property, but rather a fragile state actively eroded by experience.」と自己進化型エージェントでのリスクを指摘。最近出た250例程度のPoisoning Attackが有効という報告(下記)も関連し、意外とこの手の攻撃が容易そうに思える。
  • リポジトリはGitHub – aiming-lab/ATP: Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
  • Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples [81.7]
    この研究は、データセットのサイズに関わらず、毒殺攻撃がほぼ一定数のドキュメントを必要とすることを初めて実証した。 250の有毒なドキュメントも同様に、すべてのモデルとデータセットサイズにわたってモデルを妥協している。 以上の結果から,データ中毒によるバックドア注入は,従来考えられていたよりも大型モデルの方が容易である可能性が示唆された。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 16:25:05 GMT)
  • データポイゾニングが意外と容易にできるとの報告。