Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

  • Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.1]
    CODA-LMは、自動運転のための新しいビジョン言語ベンチマークである。 解釈可能な自動運転のためのLVLMの、最初の自動的および定量的評価を提供する。
    論文  参考訳(メタデータ)   (Tue, 16 Apr 2024 14:20:55 GMT)
  • 自動運転のためのLarge Vision-Language Modelsの評価ベンチマーク。「 even the closed-sourced commercial LVLMs like GPT-4V cannot deal with road corner cases well, suggesting that we are still far from a strong LVLM-powered intelligent driving agent」とのこと。。。
  • リポジトリはCODA-LM: Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases (coda-dataset.github.io)

Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents

  • Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents [101.2]
    本稿では,大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するためのシミュレーションプラットフォームであるGovSimについて紹介する。 我々は,AIエージェント間の資源共有のダイナミクスを探求し,倫理的考察,戦略的計画,交渉スキルの重要性を強調した。 GovSimでは、15の試験されたLLMのうち、持続可能な結果を達成することができたのはわずか2つであり、モデルが共有リソースを管理する能力に重大なギャップがあることを示唆している。
    論文  参考訳(メタデータ)   (Thu, 25 Apr 2024 15:59:16 GMT)
  • LLMを用いたエージェントが戦略的な計画や交渉、協調などが可能なシミュレーション環境の提案。毎月何トンの魚を取ればよいか?というシナリオで複数のLLMを検証。「 GPT-4 successfully maintains the shared resource over the long term, achieving nearly the maximum possible reward, while Claude-3 Opus fails to maintain the resource, with some runs collapsing before reaching 12 months.」「only GPT-4 and Claude-3 Opus, across all models tested, are able to do universalized hypothesis」とGPT-4は強い。
  • リポジトリはGitHub – giorgiopiatti/GovSim: Governance of the Commons Simulation (GovSim)