データリークと再現性

  • Leakage and the Reproducibility Crisis in ML-based Science [5.1]
    データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。 教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。 本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
    論文  参考訳(メタデータ)   (Thu, 14 Jul 2022 16:44:59 GMT)
    • (いろいろな分野で指摘されているが)学術論文の中には再現性が不十分な例がみられる。機械学習の利用ではleakageなどによってそれが起きていることがあるとの指摘。悪意があるか否かはおいておいて、機械学習モデルを正しく評価するのは難しいという印象。この論文に指摘された問題はとても参考になる。
    • プロジェクトサイトはLeakage and the Reproducibility Crisis in ML-based Science (princeton.edu)、WORDのチェックシートも提供されている。

ELECTRAとプロンプト