Autoregressive + Chain of Thought (CoT) ≃ Recurrent、To CoT or not to CoT

Chain of Thoughtの検証を行った論文が出ていた。1つ目は動作面からの検証で2つ目はメタ分析によるもの。

  • Autoregressive + Chain of Thought (CoT) $\simeq$ Recurrent: Recurrence’s Role in Language Models and a Revist of Recurrent Transformer [30.0]
    言語モデルにおける繰り返し構造が推論能力に与える影響について検討する。 線形変換器やRWKVのようなモデルにおける重要な理論的限界を同定する。
    論文  参考訳(メタデータ)   (Sat, 14 Sep 2024 00:30:57 GMT)
  • 「We explained that CoT approximates recurrence in Transformer-based autoregressive LLMs from a computational standpoint.」とのこと。途中の「Recurrent Neural Networks (RNNs) sacrifice parallel training for recurrent connections, while Transformers trade recurrence for parallelism.」も重要。
  • To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.5]
    Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。 私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
    論文  参考訳(メタデータ)   (Wed, 18 Sep 2024 17:55:00 GMT)
  • 「Finding 1: CoT only helps substantially on problems requiring mathematical, logical, or algorithmic reasoning.」はよいとして、「Finding 2: CoT primarily helps with the execution step that performs computation and symbolic manipulation, but falls short of what LLMs with tool augmentation can do.」はAgenticなアプローチのほうが有望ということなんだろうか。

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment

  • Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.1]
    従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。 本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。 本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
    論文  参考訳(メタデータ)   (Wed, 03 Jul 2024 15:04:25 GMT)
  • CoT的手法を用いた自己アライメント手法ALignCoT とさらにそれを効率化するMoTE(Mixture of insighTful Experts)の提案。
  • 「Safety alignment is essential for LLMs.Existing approaches like SFT and RLHF rely extensively on human annotation, whereas self-alignment strategies depend on LLMs’ emergent abilities.」はそうなんだろうと思うのだけど、強力な自己アライメント手法が安全につながるのかはどうなんだろう。。。

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs 

  • Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs [39.2]
    CoT(Chain-of-Thought)は、大規模言語モデル(LLM)の印象的な推論能力を引き出す、広く採用されているプロンプト手法である。 CoTのシーケンシャルな思考構造に触発されて、様々な領域やLLMを含むタスクにまたがる様々な課題に対処するために、多くのChain-of-X(CoX)手法が開発されている。
    論文  参考訳(メタデータ)   (Wed, 24 Apr 2024 06:12:00 GMT)
  • Chain of Xのサーベイ、提案されている手法が色々あって面白い。

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

  • Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.7]
    視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。 我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。 提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
    論文  参考訳(メタデータ)   (Wed, 24 Apr 2024 17:59:48 GMT)
  • マルチモーダルなCoTフレームワークの提案、様々なMLLMで有効
  • リポジトリはCantor (ggg0919.github.io)

CoT Genius

  • ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.7]
    CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する 既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。 優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
    論文  参考訳(メタデータ)   (Thu, 21 Mar 2024 11:34:26 GMT)
  • CoTプロンプト自動作成のためのフレームワークCoT Geniusとfine tuningしたモデルの提案。CoT Geniusは「CoTGenius is developed based on three major evolution strategies, i.e., complicate, diversify, and specify—alongside two filtering mechanisms: evolutionary success judgement and correctness verification.」と進化+フィルタリングで構成されている。
  • リポジトリはRUCAIBox/ChainLM (github.com)

プロンプトを使わないCoT

  • Chain-of-Thought Reasoning Without Prompting [48.4]
    CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練されたLLMから引き出すことができる。 我々は、デコードパスにおけるCoTの存在は、モデルのデコードされた回答に対する高い信頼と相関していることを観察する。
    論文  参考訳(メタデータ)   (Thu, 15 Feb 2024 18:55:41 GMT)
  • 「 there exists a task-agnostic way to elicit CoT reasoning from pre-trained LLMs by simply altering the decoding procedure.」という興味深い報告。デコーディング時の工夫は色々と改善の余地がありそうに思う。
  • デコーディングプロセスでの工夫は計算コストが高くなるなどどっちでやるべきなのかという話はある

Progressive Rectification Prompting

  • Get an A in Math: Progressive Rectification Prompting [42.1]
    CoT(Chain-of-Thought)プロンプト法により,大規模言語モデル(LLM)が推論経路を生成し,算術語問題(MWP)を解くことが可能になった。 77.3から90.5までの8MWPデータセットの平均精度を向上させるために,PRP (Progressive Rectification Prompting) という新しい手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 11 Dec 2023 22:25:57 GMT)
  • 検証修正を繰り返すタイプのプロンプティング手法 Progressive Rectification Prompting (PRP)によってCoTからの性能向上を報告。
  • self-consistency, progressive-hint, progressive rectificationと工夫がされて行っていて面白いが、ここまで性能上がるものなんだろうか。(&日本語でも効果があるんだろうか)

Exchange-of-Thought

  • Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication [76.0]
    大規模言語モデル(LLM)は、最近、Chain-of-Thoughtテクニックによる複雑な推論タスクにおいて大きな進歩を遂げました。 本稿では,問題解決時のクロスモデル通信を可能にする新しいフレームワークであるExchange-of-Thought (EoT)を提案する。
    論文  参考訳(メタデータ)   (Mon, 4 Dec 2023 11:53:56 GMT)
  • モデル間通信をしながら回答を導くフレームワークの提案。ChatEval – arXiv最新論文の紹介 (devneko.jp)に近い動作のように思える。
  • 性能は通常のCoTよりも良いとのこと。コスト分析があるのも面白い。

Creative Leap-of-Thought

  • Let’s Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation [100.9]
    Chain-of-Thought(CoT)は、大きな言語モデルをステップバイステップで推論し、その論理的推論能力を動機付ける。 大規模言語モデル(LLM)におけるLeap-of-Thought(LoT)能力について検討する。 LoTは、強い結びつきと知識の飛躍を含む、シークエンシャルで創造的なパラダイムである。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 03:20:29 GMT)
  • 「While effective for logical tasks, CoT is not conducive to creative problem-solving which often requires out-of-box thoughts and is crucial for innovation advancements.」の解決のため instruction tuning に大喜利データを使うなど非常に面白い内容。人間の評価によって効果を確認とのこと。
  • リポジトリはGitHub – sail-sg/CLoT: Official Codebase of our Paper: “Let’s Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation”

Chain of Code

  • Chain of Code: Reasoning with a Language Model-Augmented Code Emulator [119.0]
    言語モデル(LM)はコード記述を活用して思考の連鎖推論を改善する。 我々は、LMコード駆動推論を改善するシンプルな、そして驚くほど効果的な拡張であるChain of Code (CoC)を提案する。
    論文  参考訳(メタデータ)   (Thu, 7 Dec 2023 17:51:43 GMT)
  • LLMをコードを通して考えさせることによって性能が向上する(Chain of Code achieves 84%, a gain of 12% over Chain of Thought)とのこと。PALのようなプログラミング言語を通すアプローチと異なり、実行できる場合はインタプリタを実行できない場合は疑似コードを LMulator (a portmanteau of LM and emulator)を通して解釈する点が特徴。
  • リポジトリはChain of Code (google.com)