Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

  • Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.1]
    Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。 ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。 これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 14:07:02 GMT)
  • ToTの経路を用いてチューニング(DPO)するChain of Preference Optimizationにより、CoTを超え、ToTに近い性能を達成、計算時間も抑えられるとする論文。シンプルにSFTするTS-SFTより性能が高いのが意外。
  • リポジトリはGitHub – sail-sg/CPO

Buffer of Thoughts, Chain of Agents

なんとか of Thoughts、Chain of なんとかというタイプの改善手法提案は多い。

  • Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models [65.5]
    Buffer of Thoughts (BoT) は、斬新で多目的な思考補足的推論手法である。 そこで我々はメタバッファーを提案し,一連の情報的高レベルの思考を記憶する。 各問題に対して、関連する思考タイミングを検索し、特定の推論構造で適応的にインスタンス化する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 17:22:08 GMT)
  • メタバッファにあるThought template を使用しながら深く試行していく手法の提案。ToTなどを上回る性能を主張。メタバッファ自体を更新していくアーキテクチャで評価が難しそうな気がする。
  • リポジトリはGitHub – YangLing0818/buffer-of-thought-llm: Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

  • Chain of Agents: Large Language Models Collaborating on Long-Context Tasks [39.3]
    CoA(Chain-of-Agents)は、自然言語によるマルチエージェントコラボレーションを利用して、情報集約とコンテキスト推論を可能にする新しいフレームワークである。 CoAは読み出しと推論をインターリーブすることで入力全体を処理し、各エージェントに短いコンテキストを割り当てることで、長いコンテキストのフォーカス問題を軽減します。
    論文  参考訳(メタデータ)   (Tue, 04 Jun 2024 23:36:08 GMT)
  • 主に長いコンテキストの問題に対応するためのマルチエージェントなフレームワークの提案。長いデータをチャンクに分けワーカエージェントに処理させ(シーケンシャルな通信を含む)、マネージャーエージェントが取りまとめるような動作。よく使われるRAGより高性能であるとのこと。

Chain of Attack

  • Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.0]
    大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。 CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。 我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
    論文  参考訳(メタデータ)   (Thu, 09 May 2024 08:15:21 GMT)
  • マルチターンな攻撃方法
  • リポジトリはGitHub – YancyKahn/CoA: CoA: Context-Aware based Chain of Attack for Multi-Turn Dialogue LLM

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs 

  • Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs [39.2]
    CoT(Chain-of-Thought)は、大規模言語モデル(LLM)の印象的な推論能力を引き出す、広く採用されているプロンプト手法である。 CoTのシーケンシャルな思考構造に触発されて、様々な領域やLLMを含むタスクにまたがる様々な課題に対処するために、多くのChain-of-X(CoX)手法が開発されている。
    論文  参考訳(メタデータ)   (Wed, 24 Apr 2024 06:12:00 GMT)
  • Chain of Xのサーベイ、提案されている手法が色々あって面白い。

RoT: Enhancing Large Language Models with Reflection on Search Trees 

  • RoT: Enhancing Large Language Models with Reflection on Search Trees [39.6]
    本稿では,木探索に基づくプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)について紹介する。 強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。 本稿では,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択法を提案する。
    論文  参考訳(メタデータ)   (Mon, 08 Apr 2024 12:31:23 GMT)
  • x-of-thoughtのTではないが、類するものを改善するフレームワークの提案。面白く実用性はあるかもだが、公平な比較になってるのかはやや疑問。
  • リポジトリはhuiwy/reflection-on-trees (github.com)

AutoRace: AUTOmated ReAsoning Chain Evaluation

  • LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models [25.5]
    完全自動推論チェーン評価のためのAutoRaceを導入する。 既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化するためのライブラリである LLM Reasoners も開発している。
    論文  参考訳(メタデータ)   (Mon, 08 Apr 2024 06:35:09 GMT)
  • 推論過程を評価するベンチマーク。GPT-4を用いた自動評価。
  • プロジェクトサイトはHome | Reasoners (llm-reasoners.net)

CoT Genius

  • ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.7]
    CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する 既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。 優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
    論文  参考訳(メタデータ)   (Thu, 21 Mar 2024 11:34:26 GMT)
  • CoTプロンプト自動作成のためのフレームワークCoT Geniusとfine tuningしたモデルの提案。CoT Geniusは「CoTGenius is developed based on three major evolution strategies, i.e., complicate, diversify, and specify—alongside two filtering mechanisms: evolutionary success judgement and correctness verification.」と進化+フィルタリングで構成されている。
  • リポジトリはRUCAIBox/ChainLM (github.com)

Chain-of-Layer

  • Chain-of-Layer: Iteratively Prompting Large Language Models for Taxonomy Induction from Limited Examples [36.6]
    Chain-of-Layerは、特定のエンティティセットから誘導されるように設計された、コンテキスト学習フレームワークである。 実世界の4つのベンチマークにおいて,Chain-of-Layerが最先端のパフォーマンスを達成することを示す。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 03:05:54 GMT)
  • 自動分類のためのプロンプトテクニックの提案。zeroshot設定のCoL-Zero(GPT-4)が非常に強力だけど、リークの疑いなどが気になるところではある。(実用上はあまり問題にならない気はしつつ)
  • リポジトリはQingkaiZeng/Chain-of-Layer: Code for Chain-of-Layer (github.com)

Efficient Tool Use with Chain-of-Abstraction Reasoning 

  • Efficient Tool Use with Chain-of-Abstraction Reasoning [65.2]
    大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。 マルチステップ推論問題におけるツールの実行には,微調整LLMエージェントの課題が残されている。 マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 21:53:30 GMT)
  • 変数を変数としてそのまま使えるような抽象化したChainを扱えるようLLMをfine tuning、そのモデルを使って実処理を別ツールとして切り出す手法の提案。
  • 面白いし性能上がってそうだが評価するの難しそうな印象。

Chain-of-Table

  • Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding [79.9]
    そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。 Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Tue, 9 Jan 2024 07:46:26 GMT)
  • 表形式データが含まれる状況下でのプロンプトの工夫、Chainの名前がついている通りテーブル操作を続けていくアプローチ
  • 一般的に効果のある今までのProgram-aidedなアプローチより優れた性能とのこと