AIR-Bench: Audio InstRuction Benchmark – arXiv最新論文の紹介

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [98.7]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 15:41:22 GMT)
audio-language なベンチマーク。Foundation benchmark（基礎的タスク、emotion recognition, acoustic scene classification, music QAなど）とChat benchmark（実世界を想定した会話応答）で構成される。評価はGPT-4ベース。
「The evaluation code, datasets, and an open leaderboard will be made publicly available soon.」とのことで公開が楽しみ。

コメントを残す

コメントを残す コメントをキャンセル