LogicAsker

  • A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models [65.9]
    LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。 その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
    論文  参考訳(メタデータ)   (Mon, 1 Jan 2024 13:53:53 GMT)
  • LLMの論理的推論(命題論理・述語論理)能力を測るベンチマークの提案、ICLによる改善も評価している。データ等は公開予定とのことだが、現時点でリポジトリは見つけられなかった。
  • GPT-4でも結構間違うな、という印象

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です