SALAD-Bench:  SAfety evaluation for LLMs, Attack and Defense approaches

  • SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [112.5]
    SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。 それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
    論文  参考訳(メタデータ)   (Thu, 8 Feb 2024 02:50:22 GMT)
  • LLMに対する攻撃・防御に特化したベンチマーク。GPT-4は優秀ではあるがClaude-2が勝っている場合もあり面白い。
  • リポジトリはOpenSafetyLab/SALAD-BENCH: SALAD benchmark (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です