SALAD-Bench: SAfety evaluation for LLMs, Attack and Defense approaches

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [112.5]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (Thu, 8 Feb 2024 02:50:22 GMT)
LLMに対する攻撃・防御に特化したベンチマーク。GPT-4は優秀ではあるがClaude-2が勝っている場合もあり面白い。
リポジトリはOpenSafetyLab/SALAD-BENCH: SALAD benchmark (github.com)

コメントを残す

コメントを残す コメントをキャンセル