KoLA: Carefully Benchmarking World Knowledge of Large Language Models

KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.7]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19のタスクをカバーしている。データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
論文参考訳（メタデータ） (Thu, 15 Jun 2023 17:20:46 GMT)
Knowledge Memorization (KM), Knowledge Understanding (KU) ,Knowledge Applying (KA) , Knowledge Creating (KC)の軸、19のタスクでLLMを評価する総合ベンチマークの提案。総合的にGPT-4の優秀さが目立つが評価軸やベンチマークによって性能が様々であることもわかる。
プロジェクトサイトはhttps://kola.xlore.cn、リポジトリはGitHub – THU-KEG/KoLA: The open-source repo of THU-KEG’s KoLA benchmark.

コメントを残す

コメントを残す コメントをキャンセル