- Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [49.0]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。 本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。 本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文 参考訳(メタデータ) (Thu, 7 Mar 2024 01:22:38 GMT) - Chatbot Arenaの論文、論文化されていなかったことに驚き。なかなか評価の難しいLLM界隈において重要な貢献だと思う。
- プロジェクトサイトはChat with Open Large Language Models (lmsys.org)