Checklists Are Better Than Reward Models For Aligning Language Models
Checklists Are Better Than Reward Models For Aligning Language Models [99.2] チェックリストフィードバックからの強化学習(RLCF)を提案する。 指示からチェックリストを抽出し,各項目の応答がどの程度満足するかを評価する。 これらのスコアをAI判断器と特殊検証器プログラムの両方を用いて組み合わせ、RLの報酬を計算する。 論文参考訳(メタデータ) (Thu, 24 Jul 2025 17:58:00 GMT)
「”how can we grade responses to instructions in a manner that is automatic (requires no human annotation), flexible (considers all aspects of response quality), intuitive (aligned with perceptible differences in responses), and applicable to any instruction or response, to enable more effective use of RL in language model alignment?” 」に対してチェックリスト生成とチェックリストを元にしたフィードバックによる強化学習を提案。「From instructions, we extract checklists and evaluate how well responses satisfy each item—using both AI judges and specialized verifier programs—then combine these scores to compute rewards for RL. We compare RLCF with other alignment methods applied to a strong instruction following model (Qwen2.5-7B-Instruct) on five widely-studied benchmarks – RLCF is the only method to improve performance on every benchmark, including a 4-point boost in hard satisfaction rate on FollowBench, a 6-point increase on InFoBench, and a 3-point rise in win rate on Arena-Hard.」と効果を確認。
大規模モデルでチェックリスト生成、それを使って“Reinforcement Learning from Checklist Feedback” (RLCF)と、大規模モデルからの蒸留文脈での効果が大きそうだが性能向上に効果があるのが興味深い。(Limitationにある通り計算コストは高いとのこと)