- Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.2]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している 本調査では,世界モデルの最新動向を包括的に調査する。 我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (Mon, 06 May 2024 14:37:07 GMT) - SoraがWorld simulatorとして機能しうるかは賛否が分かれているが、より広く(自動運転や自律エージェントなど)World simulatorになりうる生成系AIのサーベイ。「we expect world models to possess the ability of counterfactual reasoning, whereby outcomes are inferred through rational imagining.」はその通りで現時点ではまだ困難という印象を受けたが、実現できる未来はすぐだったりするのだろうか。
- リポジトリも参考になる GitHub – GigaAI-research/General-World-Models-Survey
タグ: 自動運転
Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases
- Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.1]
CODA-LMは、自動運転のための新しいビジョン言語ベンチマークである。 解釈可能な自動運転のためのLVLMの、最初の自動的および定量的評価を提供する。
論文 参考訳(メタデータ) (Tue, 16 Apr 2024 14:20:55 GMT) - 自動運転のためのLarge Vision-Language Modelsの評価ベンチマーク。「 even the closed-sourced commercial LVLMs like GPT-4V cannot deal with road corner cases well, suggesting that we are still far from a strong LVLM-powered intelligent driving agent」とのこと。。。
- リポジトリはCODA-LM: Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases (coda-dataset.github.io)
Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future
- Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [118.0]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。 高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。 また、解決を保障する科学的、技術的課題も検討している。
論文 参考訳(メタデータ) (Wed, 6 Dec 2023 10:46:53 GMT) - 自動運転データセットのサーベイ。センサータイプが色々あるのが興味深い。オープンなものが多く出ていることに驚き。
- リポジトリはGitHub – OpenDriveLab/DriveAGI: Embracing Foundation Models into Autonomous Agent and System
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
- On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving [26.6]
視覚言語モデル(VLM)の出現は、完全自律運転の実現における新たなフロンティアである。 本報告では,最新のVLM,Modelnamefullの総合評価と自律走行シナリオへの応用について述べる。 本研究により,既存の自律システムと比較して,シーン理解や因果推論において,モデルネームが優れた性能を示すことが明らかとなった。
論文 参考訳(メタデータ) (Thu, 9 Nov 2023 12:58:37 GMT) - GPT-4Vの自動運転への適用可能性の検討。やはり高性能。
- リポジトリはGitHub – PJLab-ADG/GPT4V-AD-Exploration: On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
自動運転とLLM
- A Survey of Large Language Models for Autonomous Driving [67.8]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。 本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (Thu, 2 Nov 2023 07:23:33 GMT) - 自動運転におけるLLM利用のサーベイ。珍しい印象はあるが下記リポジトリを見ると関連する論文はかなり多い。
- リポジトリはGitHub – Thinklab-SJTU/Awesome-LLM4AD: A curated list of awesome LLM for Autonomous Driving resources (continually updated)
DRAMA(Driving Risk Assessment Mechanism with A Casting Module) Dataset
- DRAMA: Joint Risk Localization and Captioning in Driving [23.1]
本稿では,運転場面における共同リスクローカライゼーションの新たな研究方向と,その自然言語記述としてのリスク説明を提案する。 標準ベンチマークの欠如により、我々は大規模データセットDRAMA (Driving Risk Assessment Mechanism with A Casting Module) を収集した。 我々のデータセットは、視覚的キャプションの目標を達成するために、関連する重要なオブジェクトによるリスクの駆動に関するビデオおよびオブジェクトレベルの質問に適合する。
論文 参考訳(メタデータ) (Thu, 22 Sep 2022 03:53:56 GMT)- 運転中のビデオとその説明、QAを含むデータセット。17,785シナリオと規模も大きい。「We make this data available to the community for further research.」とあるものの、データ利用にはプロジェクトサイトからメールで問い合わせが必要そう。
- プロジェクトサイトはDRAMA – Honda Research Institute USA (honda-ri.com)
自動運転におけるSemantic AI Securityのサーベイ
- SoK: On the Semantic AI Security in Autonomous Driving [34.5]
自律運転システムは、安全と運転判断の正しさをAIコンポーネントに依存している。 このようなAIコンポーネントレベルの脆弱性がシステムレベルでセマンティックに影響を及ぼすためには、非自明なセマンティックギャップに対処する必要がある。 本稿では,このような研究領域を汎用AIセキュリティとは対照的にセマンティックAIセキュリティと定義しsemantic ad aiセキュリティ研究分野における知識の体系化を初めて実施する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 10 Mar 2022 12:00:34 GMT)- 単一コンポーネントの脆弱性がシステム全体に影響を及ぼすかは自明ではなく、System-to-AIとAI-to-Systemの2つのギャップがある。このような研究をsemantic AI securityと呼び、そのサーベイを実施したとのこと。
- 自動運転のセキュリティに関する良いサーベイでもあり非常に参考になる。
- プロジェクトサイトはAD & CV Systems Security – PASS (google.com)
Ad-datasets: 自動運転のデータセットまとめ
- Ad-datasets: a meta-collection of data sets for autonomous driving [5.3]
ad-datasetsは150以上のデータセットの概要を提供するオンラインツールである。 ユーザーは16のカテゴリでデータセットをソートしてフィルタリングできる。
論文 参考訳(メタデータ) (Thu, 3 Feb 2022 23:45:48 GMT)- 自動運転に関連するデータセットを整理したサイト。ライセンス等の記載があるのもうれしいが、後半のデータについて概要等が欠けている気がする。。
- プロジェクトサイトはad Datasets (ad-datasets.com)
SODA10M(large-Scale Object Detection benchmark for Autonomous driving): 大規模物体検出ベンチマーク
- SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving [94.1]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。 多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。 我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (Mon, 21 Jun 2021 13:55:57 GMT)- 1000万枚の未ラベル画像と6つのカテゴリをラベル付けした20Kの画像からなるデータセット。多くの都市、気象条件、時間帯などが含まれていて自動運転をターゲットにしている。
- ライセンスはCC BY-NC-SA 4.0のよう。商用利用はできないが研究用途として貴重なりソース。データはhttps://soda-2d.github.io/から確認可能。