Trustworthy LLMs

  • Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment [15.7]
    本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。 この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。 結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
    論文  参考訳(メタデータ)   (Thu, 10 Aug 2023 06:43:44 GMT)
  • LLMの社会実装に関する包括的なサーベイ。reliability, safety, fairness, resistance to misuse, explainability and reasoning, adherence to social norms, robustnessが対象で大規模。

MM-Vet

  • MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [121.5]
    複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。 近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
    論文  参考訳(メタデータ)   (Fri, 4 Aug 2023 17:59:47 GMT)
  • VLなLLMを前提としたマルチモーダルベンチマーク。画像に対する単純な質問というわけではなく複数の能力(例えば画像にある数字を読み取ったうえで計算しないといけない等)が必要なデータセットになっていてより困難。
  • リポジトリはGitHub – yuweihao/MM-Vet: MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities