How Reliable is Multilingual LLM-as-a-Judge?

How Reliable is Multilingual LLM-as-a-Judge? [11.6]
25言語を含む5つの多種多様なタスクにおいて、異なるモデルファミリーから5つのモデルを評価する。 一貫性は言語によって大きく異なり、低リソース言語では特にパフォーマンスが劣っていることが分かりました。 実世界のアプリケーションにおける多言語判断の整合性を改善するアンサンブル戦略を提案する。
論文  参考訳(メタデータ)   (Sun, 18 May 2025 02:32:35 GMT)

マルチリンガル設定でのLLM as a judgeの性能評価。GPT-4oも苦労している印象の結果。「we find that powerful open-source models, such as Qwen- 2.5, achieve comparable performance to OpenAI models in multilingual judgment tasks.」や「Aya fails to demonstrate noticeable improvements. This suggests that fine- tuning with multilingual data may not directly enhance a model’s ability to perform accurate multi- lingual judgments.」など興味深い記載も多い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です