Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment
Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment [35.2] 提案手法は,暗黙の報奨によって適切に整合した英語モデルからの好みを捉え,反復学習を通じて他言語に伝達する手法である。 2回に分けて微調整したLlama3はウィンレートを平均12.72%改善し、X-AlpacaEvalのリーダーボード上でのトレーニング言語全体の長さ制御ウィンレートを5.97%向上させた。 論文参考訳(メタデータ) (Thu, 06 Mar 2025 17:33:01 GMT)
「we propose a novel approach that captures learned preferences from well-aligned English models by implicit rewards and transfers them to other languages through iterative training.」、とのことで英語の選好をマルチリンガルに転送する手法の提案。「Multilingual Responses Generation、Implicit Cross-lingual Rewarding、Preference Transfer Training」の3つからなる