BIG-Bench Hard – arXiv最新論文の紹介

Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.5]
我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。 BBHタスクへのチェーン・オブ・ソウト(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
論文参考訳（メタデータ） (Mon, 17 Oct 2022 17:08:26 GMT)
- BIG-Benchで人のスコアを上回らなかった23タスクに焦点を当て、Chain of Thoughtの適用で10 or 17タスクで性能の改善が見られたとのこと。
  - CoTめっちゃ強力…
- プロジェクトサイトはsuzgunmirac/BIG-Bench-Hard: BIG-Bench-Hard (github.com)

コメントを残す

コメントを残す コメントをキャンセル