Causal Evaluation of Language Models 

  • Causal Evaluation of Language Models [33.3]
    言語モデルの因果的推論能力を評価するための総合的なベンチマークとして,CaLM(Causal Evaluation of Language Models)がある。 CaLMは4つのモジュールからなる分類法であり、因果的対象(評価対象)、適応(結果の取得方法)、メートル法(結果の測定方法)、エラー(悪い結果の分析方法)である。
    論文  参考訳(メタデータ)   (Wed, 01 May 2024 16:43:21 GMT)
  • LLMの因果的な推論を評価するためのベンチマーク、Causal Evaluation of Language Models (CaLM)の提案、GPT-4がLeaderboardトップだが、最新のモデルでの検証結果を知りたいところ
  • プロジェクトサイトはCausal Evaluation of Language Models (opencausalab.github.io)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です