ToxiGen: 機械作成された13のグループに対するHate Speech検出(有毒/良性文)のデータセット

  • ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection [33.7]
    ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。 このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。 有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 17 Mar 2022 17:57:56 GMT)
    • GPT-3を使って構築したHate speechのデータセット。ビームサーチ中にALICEと呼ばれる「事前訓練された言語モデルと毒性分類器間のゲーム」を入れることで品質の高い(検出の難しい)文を生成とのこと。

REINA(REtrieving from the traINing datA): 学習データからの検索がモデル性能を改善

  • Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data [82.9]
    検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。 意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。 実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
    論文  参考訳(メタデータ)   (Wed, 16 Mar 2022 17:37:27 GMT)
    • 学習データを対象に検索的手法を用いることで性能が向上するとの報告(3ページの図が分かりやすい)。要約タスクでREINA+BART-baseがBART-largeに匹敵とのこと。非常にパラメータ数の多いモデルであっても学習データを完全に覚えることはできないので、リマインド的に検索結果をつなげると性能が向上するのでは?というのが面白い。
      • とはいえ(特に機械翻訳は)学習したドメインにover fittingしそうな予感がする。それはそれで使いどころはありそうではあるが。。。

CodeReviewer: AIによるコードレビュー

  • CodeReviewer: Pre-Training for Automating Code Review Activities [36.4]
    本研究は,コードレビューシナリオにおけるタスクの事前学習技術を活用することに焦点を当てる。 私たちは、最も人気のある9つのプログラミング言語で、オープンソースのプロジェクトから、現実世界のコード変更とコードレビューの大規模なデータセットを収集します。 コード差分とレビューをよりよく理解するために、コードレビューセナリオに特化した4つの事前トレーニングタスクを利用する事前トレーニングモデルであるCodeReviewerを提案する。
    論文  参考訳(メタデータ)   (Thu, 17 Mar 2022 05:40:13 GMT)
    • コードレビューのため「Code Change Quality Estimation」「Code Review Generation」「Code Refinement 」という3つのタスクを提案、データセットを作成、モデル構築・評価を実施したとのこと。1つ1つが簡単ではないタスクのように思えるが、自動化できるととても有用そう。
    • コードやデータは公開予定とのこと

Delta Tuning: 事前学習モデルの効率的なチューニング

  • Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models [90.2]
    標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。 近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
    論文  参考訳(メタデータ)   (Mon, 14 Mar 2022 07:56:32 GMT)

Lexiconを用いた事前学習モデルの拡張

Multi-hopや回答可能性を考慮したQuestion Generation

Question Generationを扱った論文が2日続けて出ていた。

  • Ask to Understand: Question Generation for Multi-hop Question Answering [11.6]
    マルチホップ質問回答 (Multi-hop Question Answering, QA) は、複数の文書から散乱した手がかりを見つけ、推論することで複雑な質問に答えることを要求する。 質問生成(QG)の観点から,マルチホップQAを補完する新しい手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 17 Mar 2022 04:02:29 GMT)
    • マルチホップなQAを作るための手法の提案。sub questionを介するパイプラインになっているようだが、Multi-hop Question Answering自体が挑戦的なタスクなのでうまくいくならすごいと思う。

ELLE(Efficient Lifelong Pre-training for Emerging Data): 新たなデータの発生を考慮したPLM

  • ELLE: Efficient Lifelong Pre-training for Emerging Data [91.5]
    現在の訓練済み言語モデル(PLM)は、静的なデータでトレーニングされるが、現実のシナリオでは、様々なソースのストリーミングデータが継続的に成長する可能性がある。 新興データに対する効率的な生涯事前学習を目的としたELLEを提案する。 ELLEは,(1)既存のPLMの幅と深さを柔軟に拡張して知識獲得の効率を向上する機能保持モデル展開と,(2)事前学習時に学習した多目的知識を混乱させ,下流タスクの適切な知識を刺激する事前学習ドメインプロンプトから構成される。
    論文  参考訳(メタデータ)   (Sat, 12 Mar 2022 01:53:53 GMT)
    • 特に言語モデルで問題となる新たなデータに対する継続的な学習(ここではLifelong learning)に関する論文。計算コスト等を下げる効率的な枠組みを提案。既存の言語モデルの幅や深さ(パラメータ数)を拡大する際に効率化が可能とのこと。
      • 新たなデータを獲得するたびにモデルサイズも拡張していく設定がリアル。。。

Chart-to-Text:グラフを自然言語で表現するためのデータセット

  • Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.6]
    2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。 データセット構築プロセスを説明し、データセットを解析する。
    論文  参考訳(メタデータ)   (Sat, 12 Mar 2022 17:01:38 GMT)
    • グラフの説明をするモデル構築のためのデータセットとベースラインの提案。比較を含むためテキスト生成の中でも難しいタスクのように感じる。
    • リポジトリはGitHub – vis-nlp/Chart-to-textとのこと。(現状ではアップロードされていない)

音声CAPTCHAの攻撃と防御

  • Attacks as Defenses: Designing Robust Audio CAPTCHAs Using Attacks on Automatic Speech Recognition Systems [10.8]
    近年,ロバストで原理駆動型オーディオディフェンスの構築にインスピレーションを与えるために,音声・テキストシステムに対する攻撃について検討している。 本稿では,比較的知的な(ユーザスタディを通じて評価)かつ,自動書き起こしが難しい新しいメカニズムを提案する。 音声サンプルは,音声合成システムにおいてCAPTCHAとして検出される確率が高い。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 10 Mar 2022 15:04:15 GMT)
    • 音声のCAPTCHAに対する攻撃と防御を整理し堅牢な音声CAPTCHA、Yeehaw Junctionを提案。

Data Smells: データ品質の問題を示唆する特徴

  • Data Smells in Public Datasets [7.1]
    我々は、機械学習システムにおける問題の早期兆候を示すために使用できる、新しいデータ臭いのカタログを紹介する。 データセットにおけるデータ品質の問題の頻度を理解するために、25の公開データセットを分析し、14のデータ臭いを特定します。
    論文  参考訳(メタデータ)   (Tue, 15 Mar 2022 15:44:20 GMT)
    • Code smellのデータ版。ローデータ(前処理前)と考えると納得しかねる指摘もあるが、面白い研究であり重要であるとも思う。