LogicAsker

  • A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models [65.9]
    LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。 その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
    論文  参考訳(メタデータ)   (Mon, 1 Jan 2024 13:53:53 GMT)
  • LLMの論理的推論(命題論理・述語論理)能力を測るベンチマークの提案、ICLによる改善も評価している。データ等は公開予定とのことだが、現時点でリポジトリは見つけられなかった。
  • GPT-4でも結構間違うな、という印象

AppAgent

Self-Contrast

  • Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [48.2]
    研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。 我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。 要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 00:32:33 GMT)
  • Self-verification系の手法だがチェックリストを用いる点が特徴的。よく言われている「The aforementioned experiments indicate that feedback generated by the self-evaluate process is either highly random or excessively confident.」に対応するため「We abstract insightful checklists from these pairwise contrastive differences and then use them to resolve the inconsistencies across various perspectives for a consensus.」という手順をとる。
  • 多くの関連研究がある分野だが、多種の手法と比較しても優れていたとのこと。
  • すごくコストをかけてもよい状況下の人っぽいアプローチで興味深い。