LogicAsker – arXiv最新論文の紹介

A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models [65.9]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文参考訳（メタデータ） (Mon, 1 Jan 2024 13:53:53 GMT)
LLMの論理的推論（命題論理・述語論理）能力を測るベンチマークの提案、ICLによる改善も評価している。データ等は公開予定とのことだが、現時点でリポジトリは見つけられなかった。
GPT-4でも結構間違うな、という印象

コメントを残す

コメントを残す コメントをキャンセル