コンテンツへスキップ
- SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models [158.2]
現在の大規模言語モデル (LLM) と音声言語モデル (SLM) は、ユーザがターンを終えた後にのみ、思考と行動を取る。 これにより、モデルがユーザのターン中に対話するのを防ぎ、考えるのを待つ間、レスポンスのレイテンシが高くなります。 SHANKSは,ユーザ入力を聴きながら,無意味な連鎖推論をSLMが生成できるフレームワークである。
論文 参考訳(メタデータ) (Wed, 08 Oct 2025 11:48:59 GMT)
- 「a general framework for SLMs that enables thinking while listening. To the best of our knowledge, we are the first to explore generating unspoken CoT reasoning when the user is still speaking.」とユーザ入力を受けながら同時に考えるフレームワークの提案。同時通訳のみならず応用領域が広そう。
- リポジトリはSHANKS (シャンクス)