ToxiGen: 機械作成された13のグループに対するHate Speech検出（有毒/良性文）のデータセット

ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection [33.7]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文参考訳（メタデータ）参考訳（全文） (Thu, 17 Mar 2022 17:57:56 GMT)
- GPT-3を使って構築したHate speechのデータセット。ビームサーチ中にALICEと呼ばれる「事前訓練された言語モデルと毒性分類器間のゲーム」を入れることで品質の高い（検出の難しい）文を生成とのこと。
- リポジトリはhttps://github.com/microsoft/ToxiGenとのことだが、今は404。

コメントを残す

コメントを残す コメントをキャンセル