コンテンツへスキップ
- A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.2]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。 LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。 その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (Sat, 25 Jan 2025 09:11:15 GMT)
- LLMの創造性を測るベンチマークの提案、大喜利に注目しているのが興味深い(This paper investigates creativity in LLMs and provides an in-depth analysis of their Leap-of-Thought (LoT) abilities through the Oogiri game.)。
- (よく見る結果と異なり)GPT-4oをQwen-VLやGemini 1.5 Proが抜いているスコアになっている。
- プロジェクトサイトはLoTbench
- A Survey of World Models for Autonomous Driving [63.3]
自動運転車の最近のブレークスルーは、車両が周囲を知覚し、相互作用する方法に革命をもたらした。 世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。 これらの世界モデルは、より堅牢で信頼性があり、適応可能な自動運転ソリューションの道を開いた。
論文 参考訳(メタデータ) (Mon, 20 Jan 2025 04:00:02 GMT)
- 自動運転にフォーカスしたWorld modelのサーベイ。
- Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos [44.4]
Video-MMMUは、ビデオから知識を取得し、活用するLMMの能力を評価するために設計されたベンチマークである。 Video-MMMUには、300のエキスパートレベルのビデオと、6つの分野にわたる900の人間による注釈付き質問が収集されている。 デルタ知識(Deltaknowledge)は、ビデオ視聴後の性能改善を定量化する。
論文 参考訳(メタデータ) (Thu, 23 Jan 2025 16:51:47 GMT)
- VIDEOなMMMU、Claude 3.5 sonnetの性能が高い。
- プロジェクトサイトはVideo-MMMU