大規模言語モデルへの透かし

  • A Watermark for Large Language Models [60.7]
    本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。 透かしはテキストの品質に無視できる影響で埋め込むことができ、言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
    論文  参考訳(メタデータ)   (Tue, 24 Jan 2023 18:52:59 GMT)
  • 大規模言語モデルの出力に透かしを入れ検知できるようにするフレームワークの提案。
    ChatGPTにはすでに導入されいたりするのだろうか・・・?
  • リポジトリはGitHub – jwkirchenbauer/lm-watermarking

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing 

  • BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing [14.9]
    本稿では,深層モデル変異検査に基づく防御手法を提案する。 バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。 次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 05:24:46 GMT)
  • 「backdoor samples are much more robust than clean samples」という仮定に基づくバックドア検出手法の提案。char-level, word-level, sentence-level, style-levelの4種類の攻撃(現時点でメジャーなすべての攻撃)に対応可能とのこと。
  • この分野は画像で盛んな印象があったが、最近は自然言語処理の領域でも広く研究されている気がする。