- Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.1]
オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。 具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。 実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
論文 参考訳(メタデータ) (Mon, 27 Oct 2025 05:47:48 GMT) - MoEに対する強化学習のための「Router-Shift Policy Optimization (RSPO), an RL algorithm specifically designed for MoE architectures to achieve stable and efficient training.」を提案。