Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.1]
Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。 ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 14:07:02 GMT)
ToTの経路を用いてチューニング（DPO）するChain of Preference Optimizationにより、CoTを超え、ToTに近い性能を達成、計算時間も抑えられるとする論文。シンプルにSFTするTS-SFTより性能が高いのが意外。
リポジトリはGitHub – sail-sg/CPO

コメントを残す

コメントを残す コメントをキャンセル