Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models 

  • Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models [11.3]
    ロングチェーン・オブ・ソート(Long CoT)特性は推論能力を高め、複雑な問題の解決を可能にする。 まず、Long CoTとShort CoTを区別し、現在の推論パラダイムを分類する新しい分類法を導入する。 次に,Long CoTの出現やオーバー思考,テストタイムスケーリングなど,これらの特徴について考察する。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 17:35:03 GMT)
  • LRMでキーとなっているLong Chain of thoughtのサーベイ。「We first distinguish Long CoT from Short CoT and introduce a novel taxonomy to categorize current reasoning paradigms.」と(通常の)Short CoTと Long CoTを分けている。
  • リポジトリはTowards Reasoning Era: A Survey of Long Chain-of-Thought

START: Self-taught Reasoner with Tools 

  • START: Self-taught Reasoner with Tools [51.4]
    ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。 基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 17:11:51 GMT)
  • ツール統合型のCoTを行うSTART (Self-Taught Reasoner with Tools)の提案、「Hint-infer: code/math data is processed by QwQ, with responses truncated at predefined terminators. Context-aware hints from a Hint-Library are injected at truncation points (including endpoints), and QwQ resumes inference using a code interpreter for Python execution feedback.」と「b) Hint-RFT: Hint-infer outputs undergo rule-based scoring, filtering, and content modification to create Dseed .」の2つがキーポイント。ルール・テンプレートをうまく統合していっている印象で、この手の工夫は色々あり得そう。

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency 

  • MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.2]
    CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。 我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。 我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
    論文  参考訳(メタデータ)   (Thu, 13 Feb 2025 18:59:46 GMT)
  • 「we introduce MMECoT, a specialized benchmark evaluating the CoT reasoning performance of LMMs, spanning six domains: math, science, OCR, logic, space-time, and general scenes.」というベンチマーク
  • プロジェクトサイトはMME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency、LeaderboardトップがKimi k1.5でGPT-4oを超えているという驚きの結果。

DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought 

  • DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought [89.5]
    DRT-o1は、長いチェーン・オブ・シークレットの成功をニューラルマシン翻訳(MT)にもたらす試みである。 まず、既存の文献から模範文や比喩文を含む文を抽出し、その後、長い思考を通してこれらの文を翻訳する多エージェントフレームワークを開発する。 文献翻訳実験の結果, DRT-o1の有効性が示された。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 11:55:33 GMT)
  • Chain of thoughtの機械翻訳への応用、データを収集・マルチエージェントフレームワークでのデータ合成、fine tuningというアプローチ。14Bで124 GPU hoursは思ったよりも少ない印象だが、性能は大きく向上している。
  • プロジェクトサイトはGitHub – krystalan/DRT-o1: DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action

  • TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.6]
    複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。 推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。 このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
    論文  参考訳(メタデータ)   (Sat, 07 Dec 2024 00:42:04 GMT)
  • 「Our TACO model is able to output a Chain-of Thought-and-Action (CoTA) and answer challenging questions based on the thoughts and action outputs」というモデルの提案。マルチモーダルなAction付きのモデル。GPT-4oなどを使って構築した合成データを活用とのこと。
  • プロジェクトサイトはTACO

Autoregressive + Chain of Thought (CoT) ≃ Recurrent、To CoT or not to CoT

Chain of Thoughtの検証を行った論文が出ていた。1つ目は動作面からの検証で2つ目はメタ分析によるもの。

  • Autoregressive + Chain of Thought (CoT) $\simeq$ Recurrent: Recurrence’s Role in Language Models and a Revist of Recurrent Transformer [30.0]
    言語モデルにおける繰り返し構造が推論能力に与える影響について検討する。 線形変換器やRWKVのようなモデルにおける重要な理論的限界を同定する。
    論文  参考訳(メタデータ)   (Sat, 14 Sep 2024 00:30:57 GMT)
  • 「We explained that CoT approximates recurrence in Transformer-based autoregressive LLMs from a computational standpoint.」とのこと。途中の「Recurrent Neural Networks (RNNs) sacrifice parallel training for recurrent connections, while Transformers trade recurrence for parallelism.」も重要。
  • To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.5]
    Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。 私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 17:55:00 GMT)
  • 「Finding 1: CoT only helps substantially on problems requiring mathematical, logical, or algorithmic reasoning.」はよいとして、「Finding 2: CoT primarily helps with the execution step that performs computation and symbolic manipulation, but falls short of what LLMs with tool augmentation can do.」はAgenticなアプローチのほうが有望ということなんだろうか。

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment

  • Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.1]
    従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。 本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。 本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 15:04:25 GMT)
  • CoT的手法を用いた自己アライメント手法ALignCoT とさらにそれを効率化するMoTE(Mixture of insighTful Experts)の提案。
  • 「Safety alignment is essential for LLMs.Existing approaches like SFT and RLHF rely extensively on human annotation, whereas self-alignment strategies depend on LLMs’ emergent abilities.」はそうなんだろうと思うのだけど、強力な自己アライメント手法が安全につながるのかはどうなんだろう。。。

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs 

  • Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs [39.2]
    CoT(Chain-of-Thought)は、大規模言語モデル(LLM)の印象的な推論能力を引き出す、広く採用されているプロンプト手法である。 CoTのシーケンシャルな思考構造に触発されて、様々な領域やLLMを含むタスクにまたがる様々な課題に対処するために、多くのChain-of-X(CoX)手法が開発されている。
    論文  参考訳(メタデータ)   (Wed, 24 Apr 2024 06:12:00 GMT)
  • Chain of Xのサーベイ、提案されている手法が色々あって面白い。

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

  • Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.7]
    視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。 我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。 提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
    論文  参考訳(メタデータ)   (Wed, 24 Apr 2024 17:59:48 GMT)
  • マルチモーダルなCoTフレームワークの提案、様々なMLLMで有効
  • リポジトリはCantor (ggg0919.github.io)

CoT Genius

  • ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.7]
    CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する 既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。 優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
    論文  参考訳(メタデータ)   (Thu, 21 Mar 2024 11:34:26 GMT)
  • CoTプロンプト自動作成のためのフレームワークCoT Geniusとfine tuningしたモデルの提案。CoT Geniusは「CoTGenius is developed based on three major evolution strategies, i.e., complicate, diversify, and specify—alongside two filtering mechanisms: evolutionary success judgement and correctness verification.」と進化+フィルタリングで構成されている。
  • リポジトリはRUCAIBox/ChainLM (github.com)