AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [98.7] AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。 その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。 論文参考訳(メタデータ) (Mon, 12 Feb 2024 15:41:22 GMT)
audio-language なベンチマーク。Foundation benchmark(基礎的タスク、emotion recognition, acoustic scene classification, music QAなど)とChat benchmark(実世界を想定した会話応答)で構成される。評価はGPT-4ベース。
「The evaluation code, datasets, and an open leaderboard will be made publicly available soon.」とのことで公開が楽しみ。