コンテンツへスキップ
- EvoFSM: Controllable Self-Evolution for Deep Research with Finite State Machines [23.1]
EvoFSMは、明示的な有限状態マシンを進化させ、適応性と制御の両方を達成する構造化自己進化フレームワークである。 EvoFSMは、小さな制約された操作によってFSMを洗練し、また、再利用可能な事前および障害パターンとして成功したトラジェクトリを蒸留する自己進化メモリも組み込む。 特に、EvoFSMはDeepSearchベンチマークで58.0%の精度に達する。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 13:19:13 GMT)
- 「EvoFSM first models the complex retrieval-reasoning process as an explicit Finite State Machine (FSM) (Wu et al , 2024). By decomposing uncertain, long-horizon tasks into a state graph with clear transition logic, we establish deterministic behavioral boundaries that guarantee foundational stability. Second, to mitigate the uncontrollability of evolution, EvoFSM employs a “Structured Self-Evolution” mechanism. Rather than allowing free-form rewriting, we restrict the system to modifying the FSM topology only via a set of atomic operations guided by a critic mechanism. This targeted adjustment ensures the system flexibly adapts to new tasks without compromising functional integrity.」というアプローチの提案。コード生成を介するよりも効率的なのだろうか・・・?
- リポジトリはhttps://github.com/QuantaAlpha/EvoFSM
- What Matters For Safety Alignment? [38.9]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。 本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。 LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (Wed, 07 Jan 2026 12:31:52 GMT)
- 「We systematically investigate and compare the influence of six critical intrinsic model characteristics and three external attack techniques. Our large-scale evaluation is conducted using 32 recent, popular LLMs and LRMs across thirteen distinct model families, spanning a parameter scale from 3B to 235B.」と安全性からのLLM/LRMの評価。「The top-three safest families OpenAI GPT-OSS [5], Alibaba Qwen3-Next [27], and Google Gemma-3 [28] are dramatically safer than the top-three most vulnerable Deepseek- R1Distilled [2], Mistral-v0.3 [29], and Seed-OSS [30] families. These disparities can be interpreted as indicators of varying institutional investments in safety research and relative maturity in model training pipelines and infrastructures.」としている。
- 基本的のは公開モデルが対象のよう。
- Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception [142.5]
我々は,外部の音声知覚をいつ信頼するか,いつ外部の音声知覚を相談するかを知るという,一貫したスキルを学習する音声認識フレームワークを導入する。 音声認識と外部の音声理解タスクの両方でオムニモデルを鼻で微調整することは、しばしば性能を低下させる。 これを解決するために、我々のフレームワークであるSpeech-Handsは、問題を明示的な自己回帰決定として再考する。この学習可能なプリミティブは、モデルが欠陥のある外部候補によって脱線されるのを防ぐのに有効である。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 12:06:50 GMT)
- 「In this work, we proposed a learnable voice-agentic framework Speech-Hands for teaching omni models when to trust itself versus when to consult external audio perception. By casting the problem with explicit <internal>, <external>, and <rewrite> action tokens, our experimental results across AudioQA and ASR benchmarks demonstrate strong performance improvements beyond strong baselines, especially when direct finetuning and GER training fail, Speech-Hands can still robustly generate the best prediction.」とのこと。「We aim to instill a form of computational self-reflection (Nelson, 1990) into an omni-modal agent, designing a collaborative framework that explicitly reasons about when to trust its own perception, when to defer to an expert, and even when to utilize tools」というモチベーション。