Audio-Aware Large Language Models as Judges for Speaking Styles

Audio-Aware Large Language Models as Judges for Speaking Styles [123.4]
音声認識型大言語モデル(ALLM)を自動判断器として用いて音声の話し方を評価する。 4つの音声言語モデル(SLM)を用いて2つのタスクを完了し、人間とALMを用いてSLMの応答を判断する。以上の結果から,現在のSLM,GPT-4o-audioでさえも,発話スタイルの制御や自然な対話生成に改善の余地があることが示唆された。
論文参考訳（メタデータ） (Fri, 06 Jun 2025 11:05:48 GMT)
「By comparing the evaluation results from human and ALLM judges, we find that ALLMs can be used as automatic judges on these two tasks and achieve agreement with human judges comparable to the agreement within human judges.」とのこと。ALLM＝Audio-aware large language models
認識できる以上、Judgeもできるのはそうだろうと思うが、有用な結果。LLM as a judge関連でマルチリンガル設定の制限が報告されているが、本件でも同様なのかは気になるところ。

コメントを残す

コメントを残す コメントをキャンセル