- Themis: Towards Flexible and Interpretable NLG Evaluation [39.1]
我々は,人間とGPT-4アノテーションを併用した大規模NLG評価コーパスNLG-Evalを構築し,この分野における関連データの欠如を軽減した。 我々は,NLG評価専用のLLMであるThemisを提案する。
論文 参考訳(メタデータ) (Wed, 26 Jun 2024 14:04:29 GMT) - 評価のためのデータセット構築(0.5 million samples and 58 datasets across 9 NLG tasks)とfine tunedなモデルの提案。UniEvalやGEvalを上回る性能。
- リポジトリはGitHub – PKU-ONELab/Themis: The official repository for our NLG evaluation LLM Themis and the paper Themis: Towards Flexible and Interpretable NLG Evaluation.