RoT: Enhancing Large Language Models with Reflection on Search Trees 

  • RoT: Enhancing Large Language Models with Reflection on Search Trees [39.6]
    本稿では,木探索に基づくプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)について紹介する。 強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。 本稿では,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択法を提案する。
    論文  参考訳(メタデータ)   (Mon, 08 Apr 2024 12:31:23 GMT)
  • x-of-thoughtのTではないが、類するものを改善するフレームワークの提案。面白く実用性はあるかもだが、公平な比較になってるのかはやや疑問。
  • リポジトリはhuiwy/reflection-on-trees (github.com)

AutoRace: AUTOmated ReAsoning Chain Evaluation

  • LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models [25.5]
    完全自動推論チェーン評価のためのAutoRaceを導入する。 既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化するためのライブラリである LLM Reasoners も開発している。
    論文  参考訳(メタデータ)   (Mon, 08 Apr 2024 06:35:09 GMT)
  • 推論過程を評価するベンチマーク。GPT-4を用いた自動評価。
  • プロジェクトサイトはHome | Reasoners (llm-reasoners.net)

CoT Genius

  • ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.7]
    CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する 既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。 優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
    論文  参考訳(メタデータ)   (Thu, 21 Mar 2024 11:34:26 GMT)
  • CoTプロンプト自動作成のためのフレームワークCoT Geniusとfine tuningしたモデルの提案。CoT Geniusは「CoTGenius is developed based on three major evolution strategies, i.e., complicate, diversify, and specify—alongside two filtering mechanisms: evolutionary success judgement and correctness verification.」と進化+フィルタリングで構成されている。
  • リポジトリはRUCAIBox/ChainLM (github.com)

Chain-of-Layer

  • Chain-of-Layer: Iteratively Prompting Large Language Models for Taxonomy Induction from Limited Examples [36.6]
    Chain-of-Layerは、特定のエンティティセットから誘導されるように設計された、コンテキスト学習フレームワークである。 実世界の4つのベンチマークにおいて,Chain-of-Layerが最先端のパフォーマンスを達成することを示す。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 03:05:54 GMT)
  • 自動分類のためのプロンプトテクニックの提案。zeroshot設定のCoL-Zero(GPT-4)が非常に強力だけど、リークの疑いなどが気になるところではある。(実用上はあまり問題にならない気はしつつ)
  • リポジトリはQingkaiZeng/Chain-of-Layer: Code for Chain-of-Layer (github.com)

Efficient Tool Use with Chain-of-Abstraction Reasoning 

  • Efficient Tool Use with Chain-of-Abstraction Reasoning [65.2]
    大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。 マルチステップ推論問題におけるツールの実行には,微調整LLMエージェントの課題が残されている。 マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 21:53:30 GMT)
  • 変数を変数としてそのまま使えるような抽象化したChainを扱えるようLLMをfine tuning、そのモデルを使って実処理を別ツールとして切り出す手法の提案。
  • 面白いし性能上がってそうだが評価するの難しそうな印象。

Chain-of-Table

  • Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding [79.9]
    そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。 Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Tue, 9 Jan 2024 07:46:26 GMT)
  • 表形式データが含まれる状況下でのプロンプトの工夫、Chainの名前がついている通りテーブル操作を続けていくアプローチ
  • 一般的に効果のある今までのProgram-aidedなアプローチより優れた性能とのこと

Chain of Code

  • Chain of Code: Reasoning with a Language Model-Augmented Code Emulator [119.0]
    言語モデル(LM)はコード記述を活用して思考の連鎖推論を改善する。 我々は、LMコード駆動推論を改善するシンプルな、そして驚くほど効果的な拡張であるChain of Code (CoC)を提案する。
    論文  参考訳(メタデータ)   (Thu, 7 Dec 2023 17:51:43 GMT)
  • LLMをコードを通して考えさせることによって性能が向上する(Chain of Code achieves 84%, a gain of 12% over Chain of Thought)とのこと。PALのようなプログラミング言語を通すアプローチと異なり、実行できる場合はインタプリタを実行できない場合は疑似コードを LMulator (a portmanteau of LM and emulator)を通して解釈する点が特徴。
  • リポジトリはChain of Code (google.com)

Thread of Thought

  • Thread of Thought Unraveling Chaotic Contexts [133.2]
    思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。 実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
    論文  参考訳(メタデータ)   (Wed, 15 Nov 2023 06:54:44 GMT)
  • プロンプトテクニック“Thread of Thought” (ThoT) strategyの提案。「chaotic context X and query Q」に対して「“[X] Q: [Q] Walk me through this context in manageable parts step by step, summarizing and analyzing as we go. A:”.」としてから回答を得るアプローチ。CoTより優れているとのこと。

CoVe: Chain-of-Verification

  • Chain-of-Verification Reduces Hallucination in Large Language Models [81.0]
    言語モデルが与える反応を考慮し、誤りを訂正する能力について検討する。 モデルが最初に初期応答をドラフトするChain-of-Verification (CoVe) 法を開発した。 ウィキデータからクローズドブックMultiSpanQAまで,さまざまなタスクにおける幻覚の減少を示す。
    論文  参考訳(メタデータ)   (Wed, 20 Sep 2023 17:50:55 GMT)
  • 初期回答を作成→検証計画(検証用の質問)を作成→検証(回答・合意確認)→最終回答とすることでHallucinationを防ぐ取り組み
  • 近しい報告は多いので効果的であろうとは思うが、Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? – arXiv最新論文の紹介 (devneko.jp)の件もあり多言語で動作するかも興味がある。