Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment 

  • Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment [35.2]
    提案手法は,暗黙の報奨によって適切に整合した英語モデルからの好みを捉え,反復学習を通じて他言語に伝達する手法である。 2回に分けて微調整したLlama3はウィンレートを平均12.72%改善し、X-AlpacaEvalのリーダーボード上でのトレーニング言語全体の長さ制御ウィンレートを5.97%向上させた。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 17:33:01 GMT)
  • 「we propose a novel approach that captures learned preferences from well-aligned English models by implicit rewards and transfers them to other languages through iterative training.」、とのことで英語の選好をマルチリンガルに転送する手法の提案。「Multilingual Responses Generation、Implicit Cross-lingual Rewarding、Preference Transfer Training」の3つからなる
  • リポジトリはGitHub – ZNLP/Implicit-Cross-Lingual-Rewarding

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です