AIR-Bench: Audio InstRuction Benchmark

  • AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [98.7]
    AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。 その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 15:41:22 GMT)
  • audio-language なベンチマーク。Foundation benchmark(基礎的タスク、emotion recognition, acoustic scene classification, music QAなど)とChat benchmark(実世界を想定した会話応答)で構成される。評価はGPT-4ベース。
  • 「The evaluation code, datasets, and an open leaderboard will be made publicly available soon.」とのことで公開が楽しみ。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です