cLang-8: 文法誤り訂正タスクSOTA&データセット

  • A Simple Recipe for Multilingual Grammatical Error Correction [6.3]
    本稿では,最新の多言語文法的誤り訂正(GEC)モデルを学習するためのレシピを提案する。 まず,多数の合成例を生成するための言語に依存しない手法を提案する。 第2の要素は、大規模多言語言語モデルを使用することである。 
    論文  参考訳(メタデータ)   (Mon, 7 Jun 2021 17:47:04 GMT)
    • 大規模事前学習モデルmT5+データクリーニングによってGECでSOTA。データ数が一定以上であればクリーニングは効果的、モデル規模の増加は性能向上に効果的であったと意外性はないが重要な結果。
    • データセット等はhttps://github.com/google-research-datasets/clang8からアクセス可能とのこと。