- SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [112.5]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。 それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (Thu, 8 Feb 2024 02:50:22 GMT) - LLMに対する攻撃・防御に特化したベンチマーク。GPT-4は優秀ではあるがClaude-2が勝っている場合もあり面白い。
- リポジトリはOpenSafetyLab/SALAD-BENCH: SALAD benchmark (github.com)