TheoremQA

  • TheoremQA: A Theorem-driven Question Answering dataset [57.4]
    GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
    論文  参考訳(メタデータ)   (Tue, 23 May 2023 22:35:20 GMT)
  • 定理駆動型質問応答データセットの提案、GSM8K のような数学的問題を解くより難しいとのこと。
  • GPT-4、GPT-3.5に加えCaludやOSSなLLMが比較対象になっている点が面白い。GPT-4の性能はやはり高い。
  • リポジトリはGitHub – wenhuchen/TheoremQA: The dataset and code for paper: TheoremQA: A Theorem-driven Question Answering dataset

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です