2024年5月6日 – arXiv最新論文の紹介

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.7]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文参考訳（メタデータ） (Thu, 02 May 2024 17:18:51 GMT)
「Figure 1: Notable models arranged by their drop in performance between GSM8k and GSM1k (lower is worse).We notice that Mistral and Phi top the list of overfit models, with almost 10% drops on GSM1k compared to GSM8k, while models such as Gemini, GPT, and Claude show little to no signs of overfitting.」が衝撃的な論文で、ベンチマークデータの潜在的なLeakが問題になっていることを示している。
Fugu-MT 論文翻訳(概要): Pretraining on the Test Set Is All You Need (fugumt.com)や商用利用可能な130億パラメータの日本語LLM「Tanuki-ZeRo」を一般公開【代表的な日本語ベンチマークで世界6位: オープンモデルで1位相当､GPT3.5やClaude v2を一部凌駕, 23｜Kan Hatakeyama (note.com)など意図的に良くもできるが、そうでなくとも根深い問題で対策は簡単ではない。
個人の検証でもPhi-3もベンチマーク結果程よくはないのではないかと思う。

Better & Faster Large Language Models via Multi-token Prediction [29.1]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文参考訳（メタデータ） (Tue, 30 Apr 2024 17:33:57 GMT)
正直アイデアとしてはよく聞く予測対象の複線化、「Our experiments (up to 7B parameters and 1T tokens) show that this is increasingly useful for larger models and in particular show strong improvements for code tasks.」とのこと。実験的に示したのは重要な成果であると思う。
結果の解釈も参考になる。

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.7]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文参考訳（メタデータ） (Thu, 02 May 2024 17:59:35 GMT)
評価のためのLMの提案。GPT-4を使ってデータを構築、「We choose Mistral-7B (Jiang et al , 2023a) and Mixtral8x7B (Jiang et al , 2024) as our base models, and merge the weights of evaluator LMs separately trained on the FEEDBACK COLLECTION and the PREFERENCE COLLECTION to obtain our resulting models, PROMETHEUS 2 (7B & 8x7B).」とのこと。
リポジトリはGitHub – prometheus-eval/prometheus-eval: Evaluate your LLM’s response with Prometheus 💯

Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.9]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。本研究は,より小さい (= 13B) 言語モデル (LM) が,より強い LM から最小限の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (Fri, 26 Apr 2024 03:41:28 GMT)
自己補正を強化するためのfine tuningプロセスの提案。学習用データをモデルに作らせるアプローチで自分自身を強化している感がある。
リポジトリはhttps://github.com/yunx-z/SCOREとのことだが、現在はNotFound