UniLION: Towards Unified Autonomous Driving Model with Linear Group RNNs 

  • UniLION: Towards Unified Autonomous Driving Model with Linear Group RNNs [115.9]
    UniLIONは、大規模なLiDAR点雲、高解像度のマルチビュー画像、さらには時間的シーケンスを効率的に処理する。 UniLIONは、幅広いコアタスクにわたって、競争力と最先端のパフォーマンスを一貫して提供します。
    論文  参考訳(メタデータ)   (Mon, 03 Nov 2025 17:24:19 GMT)
  • 「We propose UniLION, a unified model that achieves both latent temporal fusion and multimodal fusion in UniLION backbone by the linear group RNN, generating the unified BEV features that serve all autonomous driving tasks, including perception, prediction, and planning.」とRNNベースのマルチモーダルモデルの提案。「Unified Heterogeneous Inputs: Leveraging the superior long-range modeling capability and linear computational complexity of linear group RNNs, UniLION integrates multi-view images, LiDAR point clouds, and temporal information into a unified 3D backbone through direct token concatenation, eliminating hand-crafted fusion modules and providing a more elegant, scalable solution.」ととてもマルチモーダル。
  • リポジトリはGitHub – happinesslz/UniLION

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

  • Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks [33.7]
    下流認識タスクを強化するための新しい合成データ生成フレームワークであるDream4Driveを紹介する。 Dream4Driveは入力ビデオを複数の3D対応誘導マップに分解し、これらの誘導マップに3Dアセットをレンダリングする。 駆動世界モデルは、下流の知覚モデルをトレーニングするために使用できる編集されたマルチビュービデオを作成するために微調整される。
    論文  参考訳(メタデータ)   (Fri, 24 Oct 2025 10:10:43 GMT)
  • 「We propose Dream4Drive, a 3D-aware synthetic data generation framework that edits the video with dense guidance maps, producing synthetic data with diverse appearances and geometric consistency.」とデータ合成フレームワークの提案。
  • プロジェクトサイトはRethinking Driving World Model as Synthetic Data Generator for Perception Tasks

AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond 

  • AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond [101.2]
    AccidentBenchは、自動車事故シナリオとBeyondドメインを組み合わせた大規模なベンチマークである。 このベンチマークには、約2000のビデオと19000以上の人間による質問応答ペアが含まれている。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 17:59:13 GMT)
  • 事故シナリオのベンチマーク、「AccidentBench targets understanding and reasoning across diverse vehicle accident scenarios (83.0%), while also encompassing airspace (10.2%) and waterway (6.8%) domains, in which safety, perception, and decision-making are deeply interdependent. Unlike benchmarks that emphasize isolated skills or single domains, AccidentBench systematically challenges models across several critical understanding and reasoning capabilities: temporal understanding and reasoning (tracking event sequences and causality over extended periods); spatial understanding and reasoning (understanding dynamic spatial relationships and multi-agent trajectories); and intent and goal reasoning (inferring agent intentions and planning goals), which further includes complex strategic and counterfactual reasoning (evaluating higher-order strategies, action implications, and “what-if” scenarios).」
  • リポジトリはGitHub – SafeRL-Lab/AccidentBench: AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond

Generative AI for Autonomous Driving: Frontiers and Opportunities 

  • Generative AI for Autonomous Driving: Frontiers and Opportunities [145.6]
    この調査は、自律運転スタックにおけるGenAIの役割の包括的合成を提供する。 まず、VAE、GAN、拡散モデル、および大規模言語モデルを含む、現代の生成モデリングの原則とトレードオフを蒸留することから始めます。 我々は、合成データ一般化、エンドツーエンド駆動戦略、高忠実なデジタルツインシステム、スマートトランスポートネットワーク、具体化されたAIへのクロスドメイン転送など、実用的な応用を分類する。
    論文  参考訳(メタデータ)   (Tue, 13 May 2025 17:59:20 GMT)
  • 生成AI&自動運転のサーベイ。プレイヤーもタスクも多い領域。
  • リポジトリはGitHub – taco-group/GenAI4AD: a comprehensive and critical synthesis of the emerging role of GenAI across the autonomous driving stack

LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation

  • LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [94.8]
    LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。 自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。 LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
    論文  参考訳(メタデータ)   (Tue, 15 Apr 2025 17:14:06 GMT)
  • 「LANGTRAJ advances autonomous vehicle simulation by leveraging language-conditioned diffusion models to generate diverse, behaviorally rich scenarios.」という軌道生成手法の提案

A Survey of World Models for Autonomous Driving

  • A Survey of World Models for Autonomous Driving [63.3]
    自動運転車の最近のブレークスルーは、車両が周囲を知覚し、相互作用する方法に革命をもたらした。 世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。 これらの世界モデルは、より堅牢で信頼性があり、適応可能な自動運転ソリューションの道を開いた。
    論文  参考訳(メタデータ)   (Mon, 20 Jan 2025 04:00:02 GMT)
  • 自動運転にフォーカスしたWorld modelのサーベイ。

Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

  • Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.2]
    一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している 本調査では,世界モデルの最新動向を包括的に調査する。 我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
    論文  参考訳(メタデータ)   (Mon, 06 May 2024 14:37:07 GMT)
  • SoraがWorld simulatorとして機能しうるかは賛否が分かれているが、より広く(自動運転や自律エージェントなど)World simulatorになりうる生成系AIのサーベイ。「we expect world models to possess the ability of counterfactual reasoning, whereby outcomes are inferred through rational imagining.」はその通りで現時点ではまだ困難という印象を受けたが、実現できる未来はすぐだったりするのだろうか。
  • リポジトリも参考になる GitHub – GigaAI-research/General-World-Models-Survey

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

  • Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.1]
    CODA-LMは、自動運転のための新しいビジョン言語ベンチマークである。 解釈可能な自動運転のためのLVLMの、最初の自動的および定量的評価を提供する。
    論文  参考訳(メタデータ)   (Tue, 16 Apr 2024 14:20:55 GMT)
  • 自動運転のためのLarge Vision-Language Modelsの評価ベンチマーク。「 even the closed-sourced commercial LVLMs like GPT-4V cannot deal with road corner cases well, suggesting that we are still far from a strong LVLM-powered intelligent driving agent」とのこと。。。
  • リポジトリはCODA-LM: Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases (coda-dataset.github.io)

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future

  • Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [118.0]
    このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。 高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。 また、解決を保障する科学的、技術的課題も検討している。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 10:46:53 GMT)
  • 自動運転データセットのサーベイ。センサータイプが色々あるのが興味深い。オープンなものが多く出ていることに驚き。
  • リポジトリはGitHub – OpenDriveLab/DriveAGI: Embracing Foundation Models into Autonomous Agent and System

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving