The Leaderboard Illusion

  • The Leaderboard Illusion [30.2]
    アリーナは最も有能なAIシステムランキングのリーダーボードとして登場した。 我々は,ゆがんだ競技場に生じた体系的な問題を同定する。
    論文  参考訳(メタデータ)   (Tue, 29 Apr 2025 15:48:49 GMT)
  • Chatbot Arena に対する問題点の指摘と改善提案
  • 「We find that undisclosed private testing practices benefit a handful of providers who are able to test multiple variants before public release and retract scores if desired.」、「At an extreme, we identify 27 private LLM variants tested by Meta in the lead-up to the Llama-4 release.」は確かに問題
  • リーダーボードの設計、運用はとても難しいが、できるところは改善を期待したい

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です