- Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。 M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (Wed, 08 Oct 2025 17:55:02 GMT) - 「We propose M-Thinker, which both achieves the input-output language consistency with a Language Consistency reward and enhances the multilingual reasoning performance with a Cross-lingual Thinking Alignment reward.」と入力・思考・出力で言語を一致させる手法の提案。性能向上につながる場合もありそうなのが興味深い。
- リポジトリはGitHub – XZhang00/M-Thinker: Code for “Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning”.