Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

  • Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.7]
    プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。 ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 17:59:35 GMT)
  • 評価のためのLMの提案。GPT-4を使ってデータを構築、「We choose Mistral-7B (Jiang et al , 2023a) and Mixtral8x7B (Jiang et al , 2024) as our base models, and merge the weights of evaluator LMs separately trained on the FEEDBACK COLLECTION and the PREFERENCE COLLECTION to obtain our resulting models, PROMETHEUS 2 (7B & 8x7B).」とのこと。
  • リポジトリはGitHub – prometheus-eval/prometheus-eval: Evaluate your LLM’s response with Prometheus 💯

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です