Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning

  • Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning [102.1]
    ThinkMergeは、トレーニング不要でプラグ&プレイのデコード戦略だ。 並列推論トレースをKで実行し、同期点における次のTokenロジットを平均化し、単一のコヒーレントな出力を生成する。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 15:35:31 GMT)
  • 「(i) generate K diverse reasoning traces up to a delimiter token, e g </think> (ii) after the delimiter, decode one shared answer sequence by averaging the next- token logits across all K reasoning contexts at every autoregressive step.」という複数の思考を束ねるTHINKMERGEの提案、性能向上を確認とのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です