GPTScore

  • GPTScore: Evaluate as You Desire [40.1]
    本稿では,生成事前学習モデルから創発的能力(ゼロショット命令など)を利用して生成したテキストをスコアする新しい評価フレームワークGPTScoreを提案する。 4つのテキスト生成タスク、22の評価側面、およびそれに対応する37のデータセットに関する実験結果から、GPTScoreは、自然言語命令だけでテキストに対して評価したいことを効果的に実現できることを示した。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 16:17:29 GMT)
  • 要約におけるBARTScoreのようにGPTシリーズを評価に使おうという試み。ROUGEのような単純な手法よりはるかに良く、BARTScoreのようなDeepベースの手法とも競合可能な結果。
  • このタスクだとGPT3-text-davinci-003よりもGPT3-text-davinci-001の方が性能が良いとのことで興味深い。
  • リポジトリはGitHub – jinlanfu/GPTScore: Source Code of Paper “GPTScore: Evaluate as You Desire”

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です