Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning

Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning [102.1]
ThinkMergeは、トレーニング不要でプラグ&プレイのデコード戦略だ。並列推論トレースをKで実行し、同期点における次のTokenロジットを平均化し、単一のコヒーレントな出力を生成する。
論文参考訳（メタデータ） (Tue, 02 Dec 2025 15:35:31 GMT)
「(i) generate K diverse reasoning traces up to a delimiter token, e g </think> (ii) after the delimiter, decode one shared answer sequence by averaging the next- token logits across all K reasoning contexts at every autoregressive step.」という複数の思考を束ねるTHINKMERGEの提案、性能向上を確認とのこと。

コメントを残す

コメントを残す コメントをキャンセル