- A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.7]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。 このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文 参考訳(メタデータ) (Thu, 02 May 2024 17:18:51 GMT) - 「Figure 1: Notable models arranged by their drop in performance between GSM8k and GSM1k (lower is worse).We notice that Mistral and Phi top the list of overfit models, with almost 10% drops on GSM1k compared to GSM8k, while models such as Gemini, GPT, and Claude show little to no signs of overfitting.」が衝撃的な論文で、ベンチマークデータの潜在的なLeakが問題になっていることを示している。
- Fugu-MT 論文翻訳(概要): Pretraining on the Test Set Is All You Need (fugumt.com)や商用利用可能な130億パラメータの日本語LLM「Tanuki-ZeRo」を一般公開 【代表的な日本語ベンチマークで世界6位: オープンモデルで1位相当、GPT3.5やClaude v2を一部凌駕, 23|Kan Hatakeyama (note.com)など意図的に良くもできるが、そうでなくとも根深い問題で対策は簡単ではない。
- 個人の検証でもPhi-3もベンチマーク結果程よくはないのではないかと思う。