- A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.7]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。 このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文 参考訳(メタデータ) (Thu, 02 May 2024 17:18:51 GMT) - 「Figure 1: Notable models arranged by their drop in performance between GSM8k and GSM1k (lower is worse).We notice that Mistral and Phi top the list of overfit models, with almost 10% drops on GSM1k compared to GSM8k, while models such as Gemini, GPT, and Claude show little to no signs of overfitting.」が衝撃的な論文で、ベンチマークデータの潜在的なLeakが問題になっていることを示している。
- Fugu-MT 論文翻訳(概要): Pretraining on the Test Set Is All You Need (fugumt.com)や商用利用可能な130億パラメータの日本語LLM「Tanuki-ZeRo」を一般公開 【代表的な日本語ベンチマークで世界6位: オープンモデルで1位相当、GPT3.5やClaude v2を一部凌駕, 23|Kan Hatakeyama (note.com)など意図的に良くもできるが、そうでなくとも根深い問題で対策は簡単ではない。
- 個人の検証でもPhi-3もベンチマーク結果程よくはないのではないかと思う。
タグ: leakage
大規模言語モデルにおけるショートカットのサーベイ
- Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey [119.5]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。 予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。 これは彼らのアウト・オブ・ディストリビューション(OOD)と敵の堅牢性を著しく損なう。
論文 参考訳(メタデータ) (Thu, 25 Aug 2022 03:51:39 GMT)- 大規模言語モデルにはロバストでない特徴量を学習(shortcut learning)した結果がふくまれOODなデータに対して性能劣化が著しい。このようなshortcut learning問題をサーベイした論文。
- 機械翻訳などにおいても悩ましい問題であるが緩和策へのポインタも示されていて参考になる。
- 論文でも触れられているが、まずは性能が著しく減少しているかの正しいテストが重要だと思う。
データリークと再現性
- Leakage and the Reproducibility Crisis in ML-based Science [5.1]
データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。 教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。 本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
論文 参考訳(メタデータ) (Thu, 14 Jul 2022 16:44:59 GMT)- (いろいろな分野で指摘されているが)学術論文の中には再現性が不十分な例がみられる。機械学習の利用ではleakageなどによってそれが起きていることがあるとの指摘。悪意があるか否かはおいておいて、機械学習モデルを正しく評価するのは難しいという印象。この論文に指摘された問題はとても参考になる。
- プロジェクトサイトはLeakage and the Reproducibility Crisis in ML-based Science (princeton.edu)、WORDのチェックシートも提供されている。