Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning [97.3] 我々は,動詞化可能な潜在推論により,コンパクトかつ高性能な計画を実現する効率的な推論フレームワークであるFast-ThinkActを提案する。 様々な具体的操作と推論ベンチマークの実験により、Fast-ThinkActは最大89.3%の推論遅延で強いパフォーマンスを達成することが示された。 論文参考訳(メタデータ) (Wed, 14 Jan 2026 18:59:59 GMT)
「How to preserve reasoning capability while enabling compact representations that properly capture essential spatial-temporal dynamics remains a crucial challenge for reasoning VLA models. In this paper, we propose Fast-ThinkAct, an efficient embodied reasoning framework for Vision-Language-Action tasks that achieves compact yet expressive planning through verbalizable latent reasoning.」と推論過程をコンパクトにするフレームワークの提案