- The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.3]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (Sun, 09 Jun 2024 12:30:30 GMT) - LLMを評価するためのベンチマークの提案、下記9カテゴリ、77タスクからなる。
- Instruction Following
- Grounding
- Planning
- Refinement
- Reasoning
- Tool Usage
- Theory of Mind
- Multilingual
- Safety
- リポジトリはprometheus-eval/BiGGen-Bench at main · prometheus-eval/prometheus-eval · GitHub、データはprometheus-eval/BiGGen-Bench · Datasets at Hugging Face、リーダーボードはBiGGen Bench Leaderboard – a Hugging Face Space by prometheus-eval。カテゴリによっても順位が入れ替わるのが興味深い。