- TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs [35.7]
大規模言語モデル(LLM)は、様々な自然言語タスクにまたがる印象的な機能を示している。 本研究では,LLMの習熟度を評価するために,多種多様な実世界の課題に対する指示に従うための包括的人間評価フレームワークを提案する。
論文 参考訳(メタデータ) (Thu, 9 Nov 2023 13:58:59 GMT) - LLMの評価に関する論文、主として中国語に関するものだがクロスリンガル・マルチリンガルという意味では日本語の評価でも参考になりそう。Figure 2: Hierarchical task tree chartのような整理も興味深い。GPT-4が一つ抜けている感はあるものの、他のモデルも猛追という感じ。
- リポジトリはGitHub – xsysigma/TencentLLMEval: TencentLLMEval is a comprehensive and extensive benchmark for artificial evaluation of large models that includes task trees, standards, data verification methods, and more.