Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

  • Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond [14.4]
    私たちはまず、長いCOT能力を欠いたモデルから始まる、長いCOTモデルをスクラッチからトレーニングすることに重点を置いています。 Qwen2.5-32B-Instructから2段階のSFTとセミオン・ポリティクスDPOからなるカリキュラムトレーニングレシピを用いて、我々のモデルであるLight-R1-32Bをトレーニングする。 AIME24と25のスコアはそれぞれ74.0と60.2であり、Light-R1-14B-DSは32BモデルとDeepSeek-R1-Distill-Llama-70Bを抜いた。
    論文  参考訳(メタデータ)   (Thu, 13 Mar 2025 15:29:22 GMT)
  • 2ステージのSFT+DPO Optimization(+ model merge)で構築したモデル。「High-Quality Data is All You Need」の通りデータセット側のパイプラインも凝っている。他の研究成果でも近いことが指摘されているが「Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains.」は興味深い。
  • リポジトリはGitHub – Qihoo360/Light-R1

Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions

  • Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions [39.2]
    検索・レコメンデーション(S&R)を伴う複雑なシステムにおけるユーザエクスペリエンス向上の課題は、学術と産業の両方から大きな注目を集めている。 本稿では,新しいマルチモーダル情報検索データセット,すなわちQilinを提案する。 データセットはXiaohongshuから収集されている。Xiaohongshuは3億人の月間アクティブユーザーがいて、平均的な検索浸透率は70%を超えている。
    論文  参考訳(メタデータ)   (Sat, 01 Mar 2025 14:15:00 GMT)
  • マルチモーダルなsearch and recommendationを対象としたデータセット
  • リポジトリはGitHub – RED-Search/Qilin: Resources and code for the Qilin dataset.