LEMA: LEarning from MistAkes – arXiv最新論文の紹介

Learning From Mistakes Makes LLM Better Reasoner [112.8]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
論文参考訳（メタデータ） (Tue, 31 Oct 2023 17:52:22 GMT)
GPT-4を用いて「 (1) identify the mistake step, (2) explain the reason for the mistake, (3) correct the mistake and generate the final answer」という手順でデータセットを作成、fine tuningによりCoTデータに比べて性能が大幅に向上したとの報告。誤りの方が学習効率が良い（新たな情報が多い）のはそうなんだろうと思う。
リポジトリはGitHub – microsoft/CodeT　？

コメントを残す

コメントを残す コメントをキャンセル