Driving on Registers [95.3] DrivoRは、エンドツーエンドの自動運転のためのシンプルで効率的なトランスフォーマーベースのアーキテクチャである。 提案手法は、事前訓練された視覚変換器(ViT)上に構築され、マルチカメラ機能をコンパクトなシーン表現に圧縮するカメラ対応レジスタトークンを導入している。 この結果から,純変圧器アーキテクチャと目標トークン圧縮を組み合わせることで,高精度で適応的なエンド・ツー・エンド・ドライブを実現するのに十分であることが示唆された。 論文参考訳(メタデータ) (Thu, 08 Jan 2026 16:28:24 GMT)
自動運転のEnd-to-end (E2E) planning、「The proposed architecture is composed of three transformer blocks: one encoder (perception) and two decoders (trajectory and scoring). The perception encoder compresses perceptual information in camera-aware registers for lightweight subsequent processing in the trajectory and scoring decoders. The decoded trajectories are re-embedded and detached from the gradient computation graph to disentangle scoring and generation. The final trajectory is chosen from the proposal set via the max predicted score」とアーキテクチャも考え方はシンプルに見える。