The BiGGen Bench – arXiv最新論文の紹介

The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.3]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (Sun, 09 Jun 2024 12:30:30 GMT)
LLMを評価するためのベンチマークの提案、下記９カテゴリ、77タスクからなる。
- Instruction Following
- Grounding
- Planning
- Refinement
- Reasoning
- Tool Usage
- Theory of Mind
- Multilingual
- Safety
リポジトリはprometheus-eval/BiGGen-Bench at main · prometheus-eval/prometheus-eval · GitHub、データはprometheus-eval/BiGGen-Bench · Datasets at Hugging Face、リーダーボードはBiGGen Bench Leaderboard – a Hugging Face Space by prometheus-eval。カテゴリによっても順位が入れ替わるのが興味深い。

コメントを残す

コメントを残す コメントをキャンセル