Secrets of RLHF in Large Language Models Part II: Reward Modeling

Secrets of RLHF in Large Language Models Part II: Reward Modeling [135.0]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 17:56:59 GMT)
Secrets of RLHF in Large Language Models Part I: PPO – arXiv最新論文の紹介 (devneko.jp) のパート２、報酬モデルに関する解説
前回に引き続きすごい資料

コメントを残す

コメントを残す コメントをキャンセル