Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts

  • Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.1]
    オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。 具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。 実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
    論文  参考訳(メタデータ)   (Mon, 27 Oct 2025 05:47:48 GMT)
  • MoEに対する強化学習のための「Router-Shift Policy Optimization (RSPO), an RL algorithm specifically designed for MoE architectures to achieve stable and efficient training.」を提案。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です