Wikipedia in the Era of LLMs: Evolution and Risks

  • Wikipedia in the Era of LLMs: Evolution and Risks [2.7]
    既存のデータを通じてウィキペディアにおけるLarge Language Models (LLM) の影響を分析し、シミュレーションを用いて潜在的なリスクを探索する。 その結果,Wikipedia の記事は LLM の影響を受けており,特定のカテゴリーの約1%-2% が影響していることがわかった。
    論文  参考訳(メタデータ)   (Tue, 04 Mar 2025 18:58:13 GMT)
  • LLMがwikipediaに与えている影響の調査、「While the estimation results vary, the influence of LLMs on Wikipedia is likely to become more significant over time.In some categories, the impact has exceeded 2%.」とのこと。
  • 翻訳やRAGの評価用データとして使う場合には気を付ける必要がある。(論文中では「If the sentences in machine translation benchmarks are drawn from Wikipedia content shaped by LLMs, the scores of machine translation models are likely to be inflated, potentially reversing the outcomes of comparisons between different models.」、「Wikipedia content processed by LLMs could appear less effective for RAG compared to real Wikipedia content.」と指摘している)

Preference Leakage: A Contamination Problem in LLM-as-a-judge

  • Preference Leakage: A Contamination Problem in LLM-as-a-judge [70.0]
    審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。 本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
    論文  参考訳(メタデータ)   (Mon, 03 Feb 2025 17:13:03 GMT)
  • LLM-as-a-jedgeを使用するときの潜在的なLeakの可能性について指摘した論文。同じモデル、派生モデル、同じファミリーのモデルでバイアスがどの程度か検証。「The results of our main experiment, measured using the proposed preference leakage score, reveal a clear bias in each judge toward its respective student model.」と今までも同じモデルの出力を好むような指摘はあったが、それを裏付ける結果となっている。「We also observe that this bias is more pronounced in comparable model pairs and larger student models.」の大きなモデルで問題が大きいというのも興味深い。
  • リポジトリはGitHub – David-Li0406/Preference-Leakage

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models 

  • GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models [24.3]
    GSM8Kベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使われている。 GSM-Symbolicは、シンボリックテンプレートから生成された改良されたベンチマークである。 以上の結果から,LLMは同一質問の異なるインスタンス化に応答する際,顕著なばらつきを示すことが明らかとなった。
    論文  参考訳(メタデータ)   (Mon, 07 Oct 2024 17:36:37 GMT)
  • 「We introduce GSM-Symbolic, an enhanced benchmark that generates diverse variants of GSM8K questions using symbolic templates」というベンチマークの紹介であるが、「We show that LLMs exhibit more robustness to changes in superficial elements like proper names but are very sensitive to changes in numerical values」というのはなかなか衝撃的な結果。
  • 「To create the templates, we add seemingly relevant but ultimately inconsequential statements to GSM-Symbolic templates.」という無意味な情報を加えたGSM-NoOpでは結果がさらに悪くなるようで、単純なLeakでもない難しさがある。

A Careful Examination of Large Language Model Performance on Grade School Arithmetic 

大規模言語モデルにおけるショートカットのサーベイ

  • Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey [119.5]
    大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。 予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。 これは彼らのアウト・オブ・ディストリビューション(OOD)と敵の堅牢性を著しく損なう。
    論文  参考訳(メタデータ)   (Thu, 25 Aug 2022 03:51:39 GMT)
    • 大規模言語モデルにはロバストでない特徴量を学習(shortcut learning)した結果がふくまれOODなデータに対して性能劣化が著しい。このようなshortcut learning問題をサーベイした論文。
    • 機械翻訳などにおいても悩ましい問題であるが緩和策へのポインタも示されていて参考になる。
      • 論文でも触れられているが、まずは性能が著しく減少しているかの正しいテストが重要だと思う。

データリークと再現性

  • Leakage and the Reproducibility Crisis in ML-based Science [5.1]
    データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。 教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。 本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
    論文  参考訳(メタデータ)   (Thu, 14 Jul 2022 16:44:59 GMT)
    • (いろいろな分野で指摘されているが)学術論文の中には再現性が不十分な例がみられる。機械学習の利用ではleakageなどによってそれが起きていることがあるとの指摘。悪意があるか否かはおいておいて、機械学習モデルを正しく評価するのは難しいという印象。この論文に指摘された問題はとても参考になる。
    • プロジェクトサイトはLeakage and the Reproducibility Crisis in ML-based Science (princeton.edu)、WORDのチェックシートも提供されている。