Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks

Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.7]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。 i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文参考訳（メタデータ） (Sat, 26 Apr 2025 07:48:52 GMT)
ベンチマークに関するサーベイ。「Fig6 Illustration of capability-based benchmark taxonomy involving: knowledge, reasoning, instruction following, multimodal, and safety.」が視覚的にとても分かりやすい。
リポジトリはGitHub – ALEX-nlp/Benchmark-of-core-capabilities、

コメントを残す

コメントを残す コメントをキャンセル