Gemma2, CriticGPT

Googleから公開モデルとしては規模の大きいLLM Gemma2がリリースされた。9Bと27Bの公開。Llama3など競合する公開モデルを超える性能とのこと。テクニカルレポート(gemma-2-report.pdf (storage.googleapis.com))には「The 9 billion and 27 billion parameter models are available today, with a 2 billion parameter model to be released shortly.」とある。「We also train the 2B and 9B models with knowledge distillation (Hinton et al , 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3× bigger.」と蒸留を効果的に使っているもの面白い。5. Ablationsをみるに効果は大きそう

いつもの翻訳ベンチマークでは非常に高い性能を示した。期待大である。Gemma 2 9Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)

OpenAIからはGPT-4の間違いを見つけ修正提案するCriticGPTが出ている。今はコードの修正が対象。限界もあるようだがこのような研究は重要。Finding GPT-4’s mistakes with GPT-4 | OpenAI

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

  • Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.8]
    大規模言語モデルの自己改善のためのAlphaLLMを紹介する。 モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。 実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
    論文  参考訳(メタデータ)   (Thu, 18 Apr 2024 15:21:34 GMT)
  • Monte Carlo Tree Search + LLM、「we use the term option as a search node and propose option-level MCTS where each option represents a sequence of tokens, which can range from multiple tokens to several sentences.」というのが興味深く、性能向上にも寄与

AlignBenchとCRITIQUELLM

中国語のアライメント評価のためのベンチマークと評価モデルの提案、リポジトリはGitHub – THUDM/AlignBench: 多维度中文对齐评测基准 | Benchmarking Chinese Alignment of LLMsGitHub – thu-coai/CritiqueLLM

データセットの規模は1000以下とそこまで大規模ではないがこの手の基盤づくりは日本語でもやっていきたいところ。「Additionally, a systematic evaluation of 17 Chinese-supported LLMs was conducted to identify their levels of alignment.」とあるが、評価結果はGPT-3.5を超えているものはあるが僅差でGPT-4には及んでいない、という状況のよう。

  • AlignBench: Benchmarking Chinese Alignment of Large Language Models [100.3]
    中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。 筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。 また, GPT-4の評価能力の95%を回復する専用コンパニオン評価器であるCritiqueLLMを開発した。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 17:41:30 GMT)
  • CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation [89.8]
    我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。 実験結果から,GPT-4に匹敵する評価性能が得られた。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 16:52:42 GMT)