SafeWorld: Geo-Diverse Safety Alignment – arXiv最新論文の紹介

SafeWorld: Geo-Diverse Safety Alignment [107.8]
大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。 SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
論文参考訳（メタデータ） (Mon, 09 Dec 2024 13:31:46 GMT)
安全性評価のためのベンチマーク、「SAFEWORLD encompasses 2,342 test user queries, each grounded in high-quality, human-verified cultural norms and legal policies from 50 countries and 493 regions/races.」と文化的側面に注意が払われている。
リポジトリはGitHub – PlusLabNLP/SafeWorld

コメントを残す

コメントを残す コメントをキャンセル