Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning
Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning [102.1] ThinkMergeは、トレーニング不要でプラグ&プレイのデコード戦略だ。 並列推論トレースをKで実行し、同期点における次のTokenロジットを平均化し、単一のコヒーレントな出力を生成する。 論文参考訳(メタデータ) (Tue, 02 Dec 2025 15:35:31 GMT)
「(i) generate K diverse reasoning traces up to a delimiter token, e g </think> (ii) after the delimiter, decode one shared answer sequence by averaging the next- token logits across all K reasoning contexts at every autoregressive step.」という複数の思考を束ねるTHINKMERGEの提案、性能向上を確認とのこと。