- Robust Reward Modeling via Causal Rubrics [46.4]
リワードモデル(RM)は、人間のフィードバックによってLLM(Large Language Models)を整列させるのに基本的だが、報酬のハッキングに悩まされることが多い。 Cromeは、報酬のハッキングを軽減するために設計された明確な因果モデルに基づく、新しいフレームワークである。 RewardBenchの標準ベースラインを大幅に上回り、平均精度を最大5.4%向上させ、特定のカテゴリーで最大13.2%と7.2%のゲインを達成した。
論文 参考訳(メタデータ) (Thu, 19 Jun 2025 17:59:47 GMT) - rewardハッキングへ対応可能な因果性を利用したフレームワーク、Crome (Causally Robust Reward Modeling)の提案
- Google Deepmindによる成果だがChromeと紛らわしいような・・・