MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

  • MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark [44.7]
    MMAUは、人間の注釈付き自然言語の質問と回答とを合わせた、注意深く編集された10kのオーディオクリップで構成されている。 これには、情報抽出と推論の質問が含まれており、モデルは、ユニークで困難なタスクにまたがる27の異なるスキルを実証する必要がある。 我々は18のオープンソースおよびプロプライエタリなAudio-Language Modelを評価し、MMAUがもたらす重大な課題を実証した。
    論文  参考訳(メタデータ)   (Thu, 24 Oct 2024 21:20:10 GMT)
  • 音声(speech, sounds, music)を軸とした理解・推論のベンチマーク。GPT-4o、Gemini Pro 1.5の性能が高めだが、「Our evaluations of 18 open-source and proprietary LALMs reveal that even the overall best model achieves only 59% accuracy on MMAU, highlighting the significant challenges it poses.」とのこと。人間のスコア(約80%)との差も大きい。
  • リポジトリはMMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です