Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception
Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception [142.5] 我々は,外部の音声知覚をいつ信頼するか,いつ外部の音声知覚を相談するかを知るという,一貫したスキルを学習する音声認識フレームワークを導入する。 音声認識と外部の音声理解タスクの両方でオムニモデルを鼻で微調整することは、しばしば性能を低下させる。 これを解決するために、我々のフレームワークであるSpeech-Handsは、問題を明示的な自己回帰決定として再考する。この学習可能なプリミティブは、モデルが欠陥のある外部候補によって脱線されるのを防ぐのに有効である。 論文参考訳(メタデータ) (Wed, 14 Jan 2026 12:06:50 GMT)
「In this work, we proposed a learnable voice-agentic framework Speech-Hands for teaching omni models when to trust itself versus when to consult external audio perception. By casting the problem with explicit <internal>, <external>, and <rewrite> action tokens, our experimental results across AudioQA and ASR benchmarks demonstrate strong performance improvements beyond strong baselines, especially when direct finetuning and GER training fail, Speech-Hands can still robustly generate the best prediction.」とのこと。「We aim to instill a form of computational self-reflection (Nelson, 1990) into an omni-modal agent, designing a collaborative framework that explicitly reasons about when to trust its own perception, when to defer to an expert, and even when to utilize tools」というモチベーション。