START: Self-taught Reasoner with Tools 

  • START: Self-taught Reasoner with Tools [51.4]
    ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。 基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 17:11:51 GMT)
  • ツール統合型のCoTを行うSTART (Self-Taught Reasoner with Tools)の提案、「Hint-infer: code/math data is processed by QwQ, with responses truncated at predefined terminators. Context-aware hints from a Hint-Library are injected at truncation points (including endpoints), and QwQ resumes inference using a code interpreter for Python execution feedback.」と「b) Hint-RFT: Hint-infer outputs undergo rule-based scoring, filtering, and content modification to create Dseed .」の2つがキーポイント。ルール・テンプレートをうまく統合していっている印象で、この手の工夫は色々あり得そう。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です