コンテンツへスキップ
- FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [39.8]
FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。 具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。 FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
論文 参考訳(メタデータ) (Thu, 20 Jul 2023 14:56:35 GMT)
- ユーザの指示に従うためのスキルを評価するためのデータセット・ベンチマークの提案。評価軸は Logical Thinking (Logical Robustness, Logical Correctness, Logical Efficiency)、Background Knowledge (Factuality, Commonsense Understanding)、Problem Handling (Comprehension, Insightfulness, Completeness, Metacognition)、User Alignment (Readability, Conciseness, Harmlessness)
- 結果としては商用モデルの強力さと、その中でもGPT-4の強さが目立つ。
- プロジェクトサイトはGitHub – kaistAI/FLASK: Official codebase for “FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets”