A Careful Examination of Large Language Model Performance on Grade School Arithmetic 

大規模言語モデルにおけるショートカットのサーベイ

  • Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey [119.5]
    大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。 予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。 これは彼らのアウト・オブ・ディストリビューション(OOD)と敵の堅牢性を著しく損なう。
    論文  参考訳(メタデータ)   (Thu, 25 Aug 2022 03:51:39 GMT)
    • 大規模言語モデルにはロバストでない特徴量を学習(shortcut learning)した結果がふくまれOODなデータに対して性能劣化が著しい。このようなshortcut learning問題をサーベイした論文。
    • 機械翻訳などにおいても悩ましい問題であるが緩和策へのポインタも示されていて参考になる。
      • 論文でも触れられているが、まずは性能が著しく減少しているかの正しいテストが重要だと思う。

データリークと再現性

  • Leakage and the Reproducibility Crisis in ML-based Science [5.1]
    データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。 教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。 本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
    論文  参考訳(メタデータ)   (Thu, 14 Jul 2022 16:44:59 GMT)
    • (いろいろな分野で指摘されているが)学術論文の中には再現性が不十分な例がみられる。機械学習の利用ではleakageなどによってそれが起きていることがあるとの指摘。悪意があるか否かはおいておいて、機械学習モデルを正しく評価するのは難しいという印象。この論文に指摘された問題はとても参考になる。
    • プロジェクトサイトはLeakage and the Reproducibility Crisis in ML-based Science (princeton.edu)、WORDのチェックシートも提供されている。