- Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain Chatbots [42.0]
本稿では,チャットボットの毒性を定量的に測定する。 一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。 そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文 参考訳(メタデータ) (Wed, 7 Sep 2022 20:45:41 GMT)- チャットボットが無害なクエリに対して有害な返答を行ってくるようなクエリを作成する攻撃手法ToxicBuppyを提案。攻撃の成功レートは条件に依存するが現実的な条件でも一定精度(数%程度)の成功率はあるよう。既存の防御手段では性能を保持したままの対応が難しいとのこと。