RAVEN: モデルは新たに文書を作っているのか、学習データをコピーしているのか

How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.8]
現在の言語モデルは高品質なテキストを生成することができる。彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文参考訳（メタデータ） (Thu, 18 Nov 2021 04:07:09 GMT)
- 新規に出てきたn-gramに注目しテキストの新規性を評価する手法RAVENを開発。言語モデルが生成したテキストは学習データのコピーではないか？という疑問は昔から持っていて興味深い内容。局所的な構造では新規性が低め、全体的な構造では新規性が高め、GPT-2を対象とした解析では意味的問題が散見されたとのこと。
  - 非常に長い文を複製する（例外的な）事象がみられたとあり、この印象がコピーを行っている疑念につながっているのではないかと思う。
  - RAVENの命名はエドガー・アラン・ポーの大鴉 – Wikipediaからだそう。
- コード等は公開予定とのこと。

コメントを残す

コメントを残す コメントをキャンセル