2025年3月21日 – arXiv最新論文の紹介

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond [14.4]
私たちはまず、長いCOT能力を欠いたモデルから始まる、長いCOTモデルをスクラッチからトレーニングすることに重点を置いています。 Qwen2.5-32B-Instructから2段階のSFTとセミオン・ポリティクスDPOからなるカリキュラムトレーニングレシピを用いて、我々のモデルであるLight-R1-32Bをトレーニングする。 AIME24と25のスコアはそれぞれ74.0と60.2であり、Light-R1-14B-DSは32BモデルとDeepSeek-R1-Distill-Llama-70Bを抜いた。
論文参考訳（メタデータ） (Thu, 13 Mar 2025 15:29:22 GMT)
2ステージのSFT＋DPO Optimization（＋ model merge）で構築したモデル。「High-Quality Data is All You Need」の通りデータセット側のパイプラインも凝っている。他の研究成果でも近いことが指摘されているが「Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains.」は興味深い。
リポジトリはGitHub – Qihoo360/Light-R1

Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions [39.2]
検索・レコメンデーション(S&R)を伴う複雑なシステムにおけるユーザエクスペリエンス向上の課題は、学術と産業の両方から大きな注目を集めている。本稿では,新しいマルチモーダル情報検索データセット,すなわちQilinを提案する。データセットはXiaohongshuから収集されている。Xiaohongshuは3億人の月間アクティブユーザーがいて、平均的な検索浸透率は70%を超えている。
論文参考訳（メタデータ） (Sat, 01 Mar 2025 14:15:00 GMT)
マルチモーダルなsearch and recommendationを対象としたデータセット
リポジトリはGitHub – RED-Search/Qilin: Resources and code for the Qilin dataset.