Themis: Towards Flexible and Interpretable NLG Evaluation

Themis: Towards Flexible and Interpretable NLG Evaluation [39.1]
我々は,人間とGPT-4アノテーションを併用した大規模NLG評価コーパスNLG-Evalを構築し,この分野における関連データの欠如を軽減した。我々は,NLG評価専用のLLMであるThemisを提案する。
論文参考訳（メタデータ） (Wed, 26 Jun 2024 14:04:29 GMT)
評価のためのデータセット構築（0.5 million samples and 58 datasets across 9 NLG tasks）とfine tunedなモデルの提案。UniEvalやGEvalを上回る性能。
リポジトリはGitHub – PKU-ONELab/Themis: The official repository for our NLG evaluation LLM Themis and the paper Themis: Towards Flexible and Interpretable NLG Evaluation.

コメントを残す

コメントを残す コメントをキャンセル