Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.7] プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。 ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。 論文参考訳(メタデータ) (Thu, 02 May 2024 17:59:35 GMT)
評価のためのLMの提案。GPT-4を使ってデータを構築、「We choose Mistral-7B (Jiang et al , 2023a) and Mixtral8x7B (Jiang et al , 2024) as our base models, and merge the weights of evaluator LMs separately trained on the FEEDBACK COLLECTION and the PREFERENCE COLLECTION to obtain our resulting models, PROMETHEUS 2 (7B & 8x7B).」とのこと。