Steering MoE LLMs via Expert (De)Activation – arXiv最新論文の紹介

Steering MoE LLMs via Expert (De)Activation [118.2]
LLM(Large Language Models)におけるMixture-of-Experts (MoE)は、各トークンを専用のFeed-Forward Networks (FFN)のサブセットを介してルーティングする。我々は,行動関連の専門家を検知し,制御することで,MoEモデルをステアリングするフレームワークであるSteerMoEを提案する。
論文参考訳（メタデータ） (Thu, 11 Sep 2025 17:55:09 GMT)
MoEを操作し望ましい（または望ましくない）動作に近づける手法の提案。ネガティブな方向性で「Critically, we are also exposing a novel dimension of “Alignment Faking” in LLMs (Greenblatt et al , 2024; Wang et al , 2024), where alignment is concentrated in a subset of experts, neglecting alternate routing paths that can catastrophically bypass alignment when triggered. We argue that, just as safety alignment must extend beyond the first few tokens (Qi et al , 2025), it must also go deeper than just a few expert pathways, ensuring robustness across the entire model routing topology.」はその通りだと思う。
リポジトリはGitHub – adobe-research/SteerMoE: A framework for steering MoE models by detecting and controlling behavior-linked experts.

コメントを残す

コメントを残す コメントをキャンセル