Training AI Co-Scientists Using Rubric Rewards [36.9] AIの共同研究者の重要な特徴は、目的と制約のセットから研究計画を生成する能力である。 本研究では,既存の研究論文の膨大なコーパスを活用して,より良い研究計画を生み出す言語モデルを訓練する方法について検討する。 複数のドメインにわたる論文から研究目標と目標固有のグルーブを自動抽出することで、スケーラブルで多様なトレーニングコーパスを構築します。 論文参考訳(メタデータ) (Mon, 29 Dec 2025 18:59:33 GMT)
「we leverage existing scientific papers to improve language models at generating research plans for diverse open-ended research goals. We propose a scalable training procedure that uses a language model to extract research goals and grading rubrics from papers, and trains the plan generator with self-grading using the goal-specific rubrics as privileged information.」とのことで既存の研究論文を用いてLRMの研究計画再生能力を強化。 Qwen-3-30B-A3B-Instructベースであることを考えると「The obtained performance makes our 30B model competitive with Grok-4-Thinking (xAI, 2025), though it remains behind the best performing model, GPT-5-Thinking (OpenAI, 2025).」は健闘しているように思える。