VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models 

Dynamic-SUPERB Phase-2

  • Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.8]
    命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。 第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。 評価結果から,どのモデルも良好に動作しなかったことが示唆された。
    論文  参考訳(メタデータ)   (Fri, 08 Nov 2024 06:33:22 GMT)
  • Dynamic-SUPERBのPhase2としてタスクが多様化・強化
  • 現時点ではデータなどは公開されていないようだが、とても重要なベンチマーク

SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models

  • SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.7]
    MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。 我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。 本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
    論文  参考訳(メタデータ)   (Thu, 24 Oct 2024 17:14:40 GMT)
  • MLLMの安全性を調べるフレームワークの提案。
  • リポジトリはSafeBench

Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge 

  • Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.7]
    CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。 CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。
    論文  参考訳(メタデータ)   (Mon, 04 Nov 2024 04:41:12 GMT)
  • 「In CHAIC, the goal is for an embodied agent equipped with egocentric observations to assist a human who may be operating under physical constraints—e g , unable to reach high places or confined to a wheelchair—in performing common household or outdoor tasks as efficiently as possible.」というタスク・ベンチマークの提案。このようなチャレンジが現実的になってきたことにAIの急速な進化を感じる。
  • リポジトリはGitHub – UMass-Foundation-Model/CHAIC: [NeurIPS D&B Track 2024] Source code for the paper “Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge”

Gemini-Exp-1114, Alpha Fold 3, Frontier Math

先週の大きなニュースは業界標準になりつつあるhttps://lmarena.ai/?leaderboardで、Geminiの最新バージョン(試験運用版モデル  |  Gemini API  |  Google AI for Developers)が一位をとったこと、Alpha Fold 3が公開されたこと(AlphaFold – Google DeepMindGitHub – google-deepmind/alphafold3: AlphaFold 3 inference pipeline.)だったと思う。やはり、Google, DeepMindは凄い。

そのほか。極めて難しい数学的問題を集めたFrontierMathベンチマークの登場も興味深かった。もはや人でも相当の専門家以外は扱えない問題になっているがこれらをLeakなく解くモデルが現れるのはいつになるのだろうか。(意外と近い将来な気もしていて期待と不安がある)

  • FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [2.1]
    FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。 現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。 AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
    論文  参考訳(メタデータ)   (Thu, 14 Nov 2024 16:26:03 GMT)
  • 「Current state-of-the-art AI models solve under 2% of problems」という極めてチャレンジングな問題。

WorkflowLLM

  • WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.5]
    ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。 最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。 LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
    論文  参考訳(メタデータ)   (Fri, 08 Nov 2024 09:58:02 GMT)
  • エージェント開発において重要となるワークフロー生成に関するベンチマークの提案とLLMの構築。
  • (1) Data Collection、(2) Query Expansion、(3) Workflow Generation、合成データを用いたWorkflowBenchの作成、fine-tuneによる WorkflowLlamaの構築と合成データを併用する一般的な手順ではあるが、GPT-4o w/ICLを完全にoutperformしているのが興味深い。
  • リポジトリはGitHub – OpenBMB/WorkflowLLM

MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

  • MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark [44.7]
    MMAUは、人間の注釈付き自然言語の質問と回答とを合わせた、注意深く編集された10kのオーディオクリップで構成されている。 これには、情報抽出と推論の質問が含まれており、モデルは、ユニークで困難なタスクにまたがる27の異なるスキルを実証する必要がある。 我々は18のオープンソースおよびプロプライエタリなAudio-Language Modelを評価し、MMAUがもたらす重大な課題を実証した。
    論文  参考訳(メタデータ)   (Thu, 24 Oct 2024 21:20:10 GMT)
  • 音声(speech, sounds, music)を軸とした理解・推論のベンチマーク。GPT-4o、Gemini Pro 1.5の性能が高めだが、「Our evaluations of 18 open-source and proprietary LALMs reveal that even the overall best model achieves only 59% accuracy on MMAU, highlighting the significant challenges it poses.」とのこと。人間のスコア(約80%)との差も大きい。
  • リポジトリはMMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

WorldSimBench: Towards Video Generation Models as World Simulators

  • WorldSimBench: Towards Video Generation Models as World Simulators [79.7]
    我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。 WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。 我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
    論文  参考訳(メタデータ)   (Wed, 23 Oct 2024 17:56:11 GMT)
  • ビデオ生成を通して世界をシミュレーションできるのでは?という主張があるが、そのベンチマーク。ものにもよるが厳しそうな印象。「Finally, based on the overall Explicit Perceptual Evaluationand Implicit Manipulative Evaluationresults, we conclude that current video generation models still fail to effectively capture many physical rules, indicating significant improvements are needed before they can function as true World Simulators.」という記載も。
  • リポジトリはWorldSimBench: Towards Video Generation Models as World Simulators

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

  • JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.8]
    JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。 CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。 両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
    論文  参考訳(メタデータ)   (Tue, 22 Oct 2024 17:59:56 GMT)
  • MMMUの日本語版
  • リポジトリはJMMMU

Evaluating Cultural and Social Awareness of LLM Web Agents

  • Evaluating Cultural and Social Awareness of LLM Web Agents [113.5]
    CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。 提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。 実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:35:44 GMT)
  • 「(1) Can LLM agents detect and appropriately respond to user queries that violate cultural or social norms, such as searching for a wine gift in Iran, where it is culturally inappropriate?」というような文化的・社会的な面を考慮可能かを測るベンチマークの提案と検証。結果は「Specifically, LLMs perform considerably better in non-agent environments compared to web-based agent settings.」とやや驚き。
  • エージェント設計時の注意が必要なことが分かる。