Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning
Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning [93.3] DeepSeek-R1同様の学習パラダイムを用いた一連のツール利用言語モデルを開発した。 Nemotron-Research-Tool-N1は、ツール呼び出しの構造的妥当性と機能的正確性のみを評価するバイナリ報酬で最適化されている。 実験により、Qwen-2.5-7B/14B-Instruct上に構築されたNemotron-Research-Tool-N1-7BとNemotron-Research-Tool-N1-14Bが最先端の結果を得ることが示された。 論文参考訳(メタデータ) (Fri, 25 Apr 2025 02:55:21 GMT)
「We introduces Nemotron-Research-Tool-N1, a series of tool-using language models trained with a rule-based reinforcement learning.」とルールベースの強化学習の有効性を確認した報告。