Gemma2, CriticGPT

Googleから公開モデルとしては規模の大きいLLM Gemma2がリリースされた。9Bと27Bの公開。Llama3など競合する公開モデルを超える性能とのこと。テクニカルレポート(gemma-2-report.pdf (storage.googleapis.com))には「The 9 billion and 27 billion parameter models are available today, with a 2 billion parameter model to be released shortly.」とある。「We also train the 2B and 9B models with knowledge distillation (Hinton et al , 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3× bigger.」と蒸留を効果的に使っているもの面白い。5. Ablationsをみるに効果は大きそう

いつもの翻訳ベンチマークでは非常に高い性能を示した。期待大である。Gemma 2 9Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)

OpenAIからはGPT-4の間違いを見つけ修正提案するCriticGPTが出ている。今はコードの修正が対象。限界もあるようだがこのような研究は重要。Finding GPT-4’s mistakes with GPT-4 | OpenAI

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です