- Leakage and the Reproducibility Crisis in ML-based Science [5.1]
データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。 教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。 本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
論文 参考訳(メタデータ) (Thu, 14 Jul 2022 16:44:59 GMT)- (いろいろな分野で指摘されているが)学術論文の中には再現性が不十分な例がみられる。機械学習の利用ではleakageなどによってそれが起きていることがあるとの指摘。悪意があるか否かはおいておいて、機械学習モデルを正しく評価するのは難しいという印象。この論文に指摘された問題はとても参考になる。
- プロジェクトサイトはLeakage and the Reproducibility Crisis in ML-based Science (princeton.edu)、WORDのチェックシートも提供されている。