- Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.5]
我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。 BBHタスクへのチェーン・オブ・ソウト(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
論文 参考訳(メタデータ) (Mon, 17 Oct 2022 17:08:26 GMT)- BIG-Benchで人のスコアを上回らなかった23タスクに焦点を当て、Chain of Thoughtの適用で10 or 17タスクで性能の改善が見られたとのこと。
- CoTめっちゃ強力…
- プロジェクトサイトはsuzgunmirac/BIG-Bench-Hard: BIG-Bench-Hard (github.com)
- BIG-Benchで人のスコアを上回らなかった23タスクに焦点を当て、Chain of Thoughtの適用で10 or 17タスクで性能の改善が見られたとのこと。