チャットボットに対する攻撃

  • Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain Chatbots [42.0]
    本稿では,チャットボットの毒性を定量的に測定する。 一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。 そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
    論文  参考訳(メタデータ)   (Wed, 7 Sep 2022 20:45:41 GMT)
    • チャットボットが無害なクエリに対して有害な返答を行ってくるようなクエリを作成する攻撃手法ToxicBuppyを提案。攻撃の成功レートは条件に依存するが現実的な条件でも一定精度(数%程度)の成功率はあるよう。既存の防御手段では性能を保持したままの対応が難しいとのこと。

多言語のdetoxification

  • Exploring Cross-lingual Textual Style Transfer with Large Multilingual Language Models [78.1]
    デトキシフィケーション(detoxification)とは、本来の有毒なテキストの意味と流布を保ちつつ、丁寧なスタイルでテキストを生成するタスクである。 本研究は多言語間の解毒と,このような大規模多言語モデルの挙動について検討する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 5 Jun 2022 20:02:30 GMT)
    • 多言語でのdetoxificationに関する報告。
    • 英語でdetoxificationを学習した多言語モデルがロシア語のdetoxificationに有効か興味があったが難しそうという実験結果。「We suggest that the reason for this is not a lack of data, but the model’s inability to capture the pattern between toxic and non-toxic text and transfer it to another language by itself.」とのこと。
    • 翻訳を通す手法はまぁまぁワークするよう。ある程度想像はできるとはいえ、Backtranslation Setupの詳細が知りたい……