GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models 

  • GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models [24.3]
    GSM8Kベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使われている。 GSM-Symbolicは、シンボリックテンプレートから生成された改良されたベンチマークである。 以上の結果から,LLMは同一質問の異なるインスタンス化に応答する際,顕著なばらつきを示すことが明らかとなった。
    論文  参考訳(メタデータ)   (Mon, 07 Oct 2024 17:36:37 GMT)
  • 「We introduce GSM-Symbolic, an enhanced benchmark that generates diverse variants of GSM8K questions using symbolic templates」というベンチマークの紹介であるが、「We show that LLMs exhibit more robustness to changes in superficial elements like proper names but are very sensitive to changes in numerical values」というのはなかなか衝撃的な結果。
  • 「To create the templates, we add seemingly relevant but ultimately inconsequential statements to GSM-Symbolic templates.」という無意味な情報を加えたGSM-NoOpでは結果がさらに悪くなるようで、単純なLeakでもない難しさがある。

A Careful Examination of Large Language Model Performance on Grade School Arithmetic 

大規模言語モデルにおけるショートカットのサーベイ

  • Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey [119.5]
    大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。 予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。 これは彼らのアウト・オブ・ディストリビューション(OOD)と敵の堅牢性を著しく損なう。
    論文  参考訳(メタデータ)   (Thu, 25 Aug 2022 03:51:39 GMT)
    • 大規模言語モデルにはロバストでない特徴量を学習(shortcut learning)した結果がふくまれOODなデータに対して性能劣化が著しい。このようなshortcut learning問題をサーベイした論文。
    • 機械翻訳などにおいても悩ましい問題であるが緩和策へのポインタも示されていて参考になる。
      • 論文でも触れられているが、まずは性能が著しく減少しているかの正しいテストが重要だと思う。

データリークと再現性

  • Leakage and the Reproducibility Crisis in ML-based Science [5.1]
    データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。 教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。 本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
    論文  参考訳(メタデータ)   (Thu, 14 Jul 2022 16:44:59 GMT)
    • (いろいろな分野で指摘されているが)学術論文の中には再現性が不十分な例がみられる。機械学習の利用ではleakageなどによってそれが起きていることがあるとの指摘。悪意があるか否かはおいておいて、機械学習モデルを正しく評価するのは難しいという印象。この論文に指摘された問題はとても参考になる。
    • プロジェクトサイトはLeakage and the Reproducibility Crisis in ML-based Science (princeton.edu)、WORDのチェックシートも提供されている。