TransFool: An Adversarial Attack against Neural Machine Translation Models [49.5] 敵攻撃に対するニューラルネットワーク翻訳(NMT)モデルの脆弱性を調査し,TransFoolと呼ばれる新たな攻撃アルゴリズムを提案する。 クリーンなサンプルと高いレベルのセマンティックな類似性を保ったソースコード言語で、流動的な逆の例を生成する。 自動的および人的評価に基づいて、TransFoolは、既存の攻撃と比較して成功率、意味的類似性、流布率の改善につながる。 論文参考訳(メタデータ) (Thu, 2 Feb 2023 08:35:34 GMT)
ニューラル機械翻訳に対する(ホワイトボックスな)敵対的攻撃手法の提案。高い攻撃成功率を達成とのこと。「Our attack is also transferable to black-box settings with different structures and even different target languages.」という転送可能性があるというのが非常に面白い。本質的に解釈が難しい文が作れるとかなんだろうか。