Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge

  • Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.3]
    多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。 提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。 当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
    論文  参考訳(メタデータ)   (Thu, 03 Oct 2024 17:53:30 GMT)
  • 最近よく使われているLLM as a Judgeで生じるバイアスの整理と定量化に対する提案。「While Claude-3.5 generally shows the greatest resilience to biases, our findings reveal that even highly proficient models can struggle.」という結果は興味深い。(GPT-4oはClaude 3.5より結果が悪かった)
  • リポジトリはJustice or Prejudice? Quantifying Biases in LLM-as-a-Judge (llm-judge-bias.github.io)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です