自動運転 – arXiv最新論文の紹介

Generative AI for Autonomous Driving: Frontiers and Opportunities

Generative AI for Autonomous Driving: Frontiers and Opportunities [145.6]
この調査は、自律運転スタックにおけるGenAIの役割の包括的合成を提供する。まず、VAE、GAN、拡散モデル、および大規模言語モデルを含む、現代の生成モデリングの原則とトレードオフを蒸留することから始めます。我々は、合成データ一般化、エンドツーエンド駆動戦略、高忠実なデジタルツインシステム、スマートトランスポートネットワーク、具体化されたAIへのクロスドメイン転送など、実用的な応用を分類する。
論文参考訳（メタデータ） (Tue, 13 May 2025 17:59:20 GMT)
生成AI＆自動運転のサーベイ。プレイヤーもタスクも多い領域。
リポジトリはGitHub – taco-group/GenAI4AD: a comprehensive and critical synthesis of the emerging role of GenAI across the autonomous driving stack

LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation

LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [94.8]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。 LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文参考訳（メタデータ） (Tue, 15 Apr 2025 17:14:06 GMT)
「LANGTRAJ advances autonomous vehicle simulation by leveraging language-conditioned diffusion models to generate diverse, behaviorally rich scenarios.」という軌道生成手法の提案

A Survey of World Models for Autonomous Driving

A Survey of World Models for Autonomous Driving [63.3]
自動運転車の最近のブレークスルーは、車両が周囲を知覚し、相互作用する方法に革命をもたらした。世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。これらの世界モデルは、より堅牢で信頼性があり、適応可能な自動運転ソリューションの道を開いた。
論文参考訳（メタデータ） (Mon, 20 Jan 2025 04:00:02 GMT)
自動運転にフォーカスしたWorld modelのサーベイ。

Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.2]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している本調査では,世界モデルの最新動向を包括的に調査する。我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文参考訳（メタデータ） (Mon, 06 May 2024 14:37:07 GMT)
SoraがWorld simulatorとして機能しうるかは賛否が分かれているが、より広く（自動運転や自律エージェントなど）World simulatorになりうる生成系AIのサーベイ。「we expect world models to possess the ability of counterfactual reasoning, whereby outcomes are inferred through rational imagining.」はその通りで現時点ではまだ困難という印象を受けたが、実現できる未来はすぐだったりするのだろうか。
リポジトリも参考になる　GitHub – GigaAI-research/General-World-Models-Survey

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.1]
CODA-LMは、自動運転のための新しいビジョン言語ベンチマークである。解釈可能な自動運転のためのLVLMの、最初の自動的および定量的評価を提供する。
論文参考訳（メタデータ） (Tue, 16 Apr 2024 14:20:55 GMT)
自動運転のためのLarge Vision-Language Modelsの評価ベンチマーク。「 even the closed-sourced commercial LVLMs like GPT-4V cannot deal with road corner cases well, suggesting that we are still far from a strong LVLM-powered intelligent driving agent」とのこと。。。
リポジトリはCODA-LM: Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases (coda-dataset.github.io)

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [118.0]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。また、解決を保障する科学的、技術的課題も検討している。
論文参考訳（メタデータ） (Wed, 6 Dec 2023 10:46:53 GMT)
自動運転データセットのサーベイ。センサータイプが色々あるのが興味深い。オープンなものが多く出ていることに驚き。
リポジトリはGitHub – OpenDriveLab/DriveAGI: Embracing Foundation Models into Autonomous Agent and System

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving [26.6]
視覚言語モデル(VLM)の出現は、完全自律運転の実現における新たなフロンティアである。本報告では,最新のVLM,Modelnamefullの総合評価と自律走行シナリオへの応用について述べる。本研究により,既存の自律システムと比較して,シーン理解や因果推論において,モデルネームが優れた性能を示すことが明らかとなった。
論文参考訳（メタデータ） (Thu, 9 Nov 2023 12:58:37 GMT)
GPT-4Vの自動運転への適用可能性の検討。やはり高性能。
リポジトリはGitHub – PJLab-ADG/GPT4V-AD-Exploration: On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

自動運転とLLM

A Survey of Large Language Models for Autonomous Driving [67.8]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文参考訳（メタデータ） (Thu, 2 Nov 2023 07:23:33 GMT)
自動運転におけるLLM利用のサーベイ。珍しい印象はあるが下記リポジトリを見ると関連する論文はかなり多い。
リポジトリはGitHub – Thinklab-SJTU/Awesome-LLM4AD: A curated list of awesome LLM for Autonomous Driving resources (continually updated)

DRAMA(Driving Risk Assessment Mechanism with A Casting Module) Dataset

DRAMA: Joint Risk Localization and Captioning in Driving [23.1]
本稿では,運転場面における共同リスクローカライゼーションの新たな研究方向と,その自然言語記述としてのリスク説明を提案する。標準ベンチマークの欠如により、我々は大規模データセットDRAMA (Driving Risk Assessment Mechanism with A Casting Module) を収集した。我々のデータセットは、視覚的キャプションの目標を達成するために、関連する重要なオブジェクトによるリスクの駆動に関するビデオおよびオブジェクトレベルの質問に適合する。
論文参考訳（メタデータ） (Thu, 22 Sep 2022 03:53:56 GMT)
- 運転中のビデオとその説明、QAを含むデータセット。17,785シナリオと規模も大きい。「We make this data available to the community for further research.」とあるものの、データ利用にはプロジェクトサイトからメールで問い合わせが必要そう。
- プロジェクトサイトはDRAMA – Honda Research Institute USA (honda-ri.com)

自動運転におけるSemantic AI Securityのサーベイ

SoK: On the Semantic AI Security in Autonomous Driving [34.5]
自律運転システムは、安全と運転判断の正しさをAIコンポーネントに依存している。このようなAIコンポーネントレベルの脆弱性がシステムレベルでセマンティックに影響を及ぼすためには、非自明なセマンティックギャップに対処する必要がある。本稿では,このような研究領域を汎用AIセキュリティとは対照的にセマンティックAIセキュリティと定義しsemantic ad aiセキュリティ研究分野における知識の体系化を初めて実施する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 10 Mar 2022 12:00:34 GMT)
- 単一コンポーネントの脆弱性がシステム全体に影響を及ぼすかは自明ではなく、System-to-AIとAI-to-Systemの2つのギャップがある。このような研究をsemantic AI securityと呼び、そのサーベイを実施したとのこと。
- 自動運転のセキュリティに関する良いサーベイでもあり非常に参考になる。
- プロジェクトサイトはAD & CV Systems Security – PASS (google.com)

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31