A Careful Examination of Large Language Model Performance on Grade School Arithmetic 

Better & Faster Large Language Models via Multi-token Prediction

  • Better & Faster Large Language Models via Multi-token Prediction [29.1]
    GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。 複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Apr 2024 17:33:57 GMT)
  • 正直アイデアとしてはよく聞く予測対象の複線化、「Our experiments (up to 7B parameters and 1T tokens) show that this is increasingly useful for larger models and in particular show strong improvements for code tasks.」とのこと。実験的に示したのは重要な成果であると思う。
  • 結果の解釈も参考になる。

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

  • Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.7]
    プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。 ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 17:59:35 GMT)
  • 評価のためのLMの提案。GPT-4を使ってデータを構築、「We choose Mistral-7B (Jiang et al , 2023a) and Mixtral8x7B (Jiang et al , 2024) as our base models, and merge the weights of evaluator LMs separately trained on the FEEDBACK COLLECTION and the PREFERENCE COLLECTION to obtain our resulting models, PROMETHEUS 2 (7B & 8x7B).」とのこと。
  • リポジトリはGitHub – prometheus-eval/prometheus-eval: Evaluate your LLM’s response with Prometheus 💯

SCORE: Self-COrrection ability in REasoning tasks

  • Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.9]
    大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。 本研究は,より小さい (= 13B) 言語モデル (LM) が,より強い LM から最小限の入力で推論タスクを自己補正できるかどうかを考察する。
    論文  参考訳(メタデータ)   (Fri, 26 Apr 2024 03:41:28 GMT)
  • 自己補正を強化するためのfine tuningプロセスの提案。学習用データをモデルに作らせるアプローチで自分自身を強化している感がある。
  • リポジトリはhttps://github.com/yunx-z/SCOREとのことだが、現在はNotFound