- Leakage and the Reproducibility Crisis in ML-based Science [5.1]
データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。 教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。 本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
論文 参考訳(メタデータ) (Thu, 14 Jul 2022 16:44:59 GMT)- (いろいろな分野で指摘されているが)学術論文の中には再現性が不十分な例がみられる。機械学習の利用ではleakageなどによってそれが起きていることがあるとの指摘。悪意があるか否かはおいておいて、機械学習モデルを正しく評価するのは難しいという印象。この論文に指摘された問題はとても参考になる。
- プロジェクトサイトはLeakage and the Reproducibility Crisis in ML-based Science (princeton.edu)、WORDのチェックシートも提供されている。
日: 2022年7月28日
ELECTRAとプロンプト
- ELECTRA is a Zero-Shot Learner, Too [14.3]
「プレトレイン・プロンプト・予測」は「プレトレイン・ファイン・チューン」のパラダイムに比べて目覚ましい成果を上げている。 本稿では,代用トークン検出(RTD)に基づくプロンプト学習手法を提案する。 実験結果から,RTD-prompt 学習に基づくELECTRAモデルが驚くほど最先端のゼロショット性能を実現することが示された。
論文 参考訳(メタデータ) (Sun, 17 Jul 2022 11:20:58 GMT)- ELECTRAもゼロショット能力があり、しかも性能が高いという指摘
- リポジトリはGitHub – nishiwen1214/RTD-ELECTRA: Code of paper: “ELECTRA is a Zero-shot learner, Too” — Prompt-based ELECTRA for zero-shot learning.