Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

  • Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models [33.2]
    Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。 エージェント能力を評価するために,gpt-4o,claude 3 opus,claude 3.5 sonnet,mixtral 8x22b instruct,gemini 1.5 pro,llama 3 70b chat,llama 3.1 405b instructの7モデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 17:23:10 GMT)
  • CTFコンペから抽出したタスクをLLMが解けるかのベンチマーク。ガイドなしだとまだまだ難しそうな感じ。閲覧時点ではClaude 3.5 Sonnet > GPT-4o > Claude 3 Opusで、オープン系のLlama 3.1 405B Instructは商用モデルに比べてかなり性能が低い。
  • リポジトリはCybench

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です