- Learning From Mistakes Makes LLM Better Reasoner [112.8]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。 この研究は、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
論文 参考訳(メタデータ) (Tue, 31 Oct 2023 17:52:22 GMT) - GPT-4を用いて「 (1) identify the mistake step, (2) explain the reason for the mistake, (3) correct the mistake and generate the final answer」という手順でデータセットを作成、fine tuningによりCoTデータに比べて性能が大幅に向上したとの報告。誤りの方が学習効率が良い(新たな情報が多い)のはそうなんだろうと思う。
- リポジトリはGitHub – microsoft/CodeT ?