Detoxifying – arXiv最新論文の紹介

チャットボットに対する攻撃

Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain Chatbots [42.0]
本稿では,チャットボットの毒性を定量的に測定する。一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文参考訳（メタデータ） (Wed, 7 Sep 2022 20:45:41 GMT)
- チャットボットが無害なクエリに対して有害な返答を行ってくるようなクエリを作成する攻撃手法ToxicBuppyを提案。攻撃の成功レートは条件に依存するが現実的な条件でも一定精度（数％程度）の成功率はあるよう。既存の防御手段では性能を保持したままの対応が難しいとのこと。

言語モデルのデトックス

Challenges in Detoxifying Language Models [44.5]
大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
論文参考訳（メタデータ） (Wed, 15 Sep 2021 17:27:06 GMT)
- 大規模言語モデルから攻撃的なテキストなど問題のある部分を除く無毒化の研究報告。毒性スコアを効果的に減少させる手法は存在するが、そもそも何を問題のあるテキストとみなすか？という問いが未解決であるとの指摘は重い。また、毒性スコアを下げる対応によって社会的バイアスの増加（疎外されているグループに対する精度劣化）が起きる可能性があることは注意すべき事項であると思う。