Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.3] 多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。 提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。 当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。 論文参考訳(メタデータ) (Thu, 03 Oct 2024 17:53:30 GMT)
最近よく使われているLLM as a Judgeで生じるバイアスの整理と定量化に対する提案。「While Claude-3.5 generally shows the greatest resilience to biases, our findings reveal that even highly proficient models can struggle.」という結果は興味深い。(GPT-4oはClaude 3.5より結果が悪かった)