- DataCLUE: A Benchmark Suite for Data-centric NLP [11.0]
データ中心のAIは、モデルパフォーマンスを改善するためにデータセットの品質を改善することを強調する。 NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。 我々は,人間のアノテーションを用いた総合的な実験を行い,DataCLUEの難しさを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 17 Nov 2021 16:24:55 GMT)- モデル性能向上のためデータの品質向上を重視する、Data-centric AIに関するベンチマーク(コンペティション)。CLUE(Chinese Language Understanding Evaluation Benchmark)をベースにしているので中国語版。
- Data-Centric AI Competition (https-deeplearning-ai.github.io)のようなコンペが開かれていたりもして興味深い活動。
- FuguMTのデータで似たようなことやれないかなと思いつつ、機械翻訳モデルは学習コストが高いのが難点だなと思う。
- プロジェクトサイト(英語版)はhttps://github.com/CLUEbenchmark/DataCLUE/blob/master/README_en.md
- モデル性能向上のためデータの品質向上を重視する、Data-centric AIに関するベンチマーク(コンペティション)。CLUE(Chinese Language Understanding Evaluation Benchmark)をベースにしているので中国語版。
- ニューラル機械翻訳モデルと対訳データの品質 | ぷるーふおぶこんせぷと (staka.jp) でも記載した通り、ニューラル機械翻訳モデル構築においては対訳データの品質が非常に重要。FuguMTのデータを用いてデータ中心(データの品質向上技術を競う)ベンチマークを作りたいなと思わなくもない。