SafeWorld: Geo-Diverse Safety Alignment

  • SafeWorld: Geo-Diverse Safety Alignment [107.8]
    大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。 SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。 トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 13:31:46 GMT)
  • 安全性評価のためのベンチマーク、「SAFEWORLD encompasses 2,342 test user queries, each grounded in high-quality, human-verified cultural norms and legal policies from 50 countries and 493 regions/races.」と文化的側面に注意が払われている。
  • リポジトリはGitHub – PlusLabNLP/SafeWorld

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です