Exchange-of-Thought

  • Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication [76.0]
    大規模言語モデル(LLM)は、最近、Chain-of-Thoughtテクニックによる複雑な推論タスクにおいて大きな進歩を遂げました。 本稿では,問題解決時のクロスモデル通信を可能にする新しいフレームワークであるExchange-of-Thought (EoT)を提案する。
    論文  参考訳(メタデータ)   (Mon, 4 Dec 2023 11:53:56 GMT)
  • モデル間通信をしながら回答を導くフレームワークの提案。ChatEval – arXiv最新論文の紹介 (devneko.jp)に近い動作のように思える。
  • 性能は通常のCoTよりも良いとのこと。コスト分析があるのも面白い。

Creative Leap-of-Thought

  • Let’s Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation [100.9]
    Chain-of-Thought(CoT)は、大きな言語モデルをステップバイステップで推論し、その論理的推論能力を動機付ける。 大規模言語モデル(LLM)におけるLeap-of-Thought(LoT)能力について検討する。 LoTは、強い結びつきと知識の飛躍を含む、シークエンシャルで創造的なパラダイムである。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 03:20:29 GMT)
  • 「While effective for logical tasks, CoT is not conducive to creative problem-solving which often requires out-of-box thoughts and is crucial for innovation advancements.」の解決のため instruction tuning に大喜利データを使うなど非常に面白い内容。人間の評価によって効果を確認とのこと。
  • リポジトリはGitHub – sail-sg/CLoT: Official Codebase of our Paper: “Let’s Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation”

Chain of Code

  • Chain of Code: Reasoning with a Language Model-Augmented Code Emulator [119.0]
    言語モデル(LM)はコード記述を活用して思考の連鎖推論を改善する。 我々は、LMコード駆動推論を改善するシンプルな、そして驚くほど効果的な拡張であるChain of Code (CoC)を提案する。
    論文  参考訳(メタデータ)   (Thu, 7 Dec 2023 17:51:43 GMT)
  • LLMをコードを通して考えさせることによって性能が向上する(Chain of Code achieves 84%, a gain of 12% over Chain of Thought)とのこと。PALのようなプログラミング言語を通すアプローチと異なり、実行できる場合はインタプリタを実行できない場合は疑似コードを LMulator (a portmanteau of LM and emulator)を通して解釈する点が特徴。
  • リポジトリはChain of Code (google.com)

Program-Aided Reasoners (better) Know What They Know

  • Program-Aided Reasoners (better) Know What They Know [59.3]
    プログラム支援言語モデル(PAL)の校正と,5つのデータセットにまたがるテキストベースのChain-of-Thought(COT)技術の比較を行った。 以上の結果から, PALは75%の症例で校正の改善につながることが示唆された。
    論文  参考訳(メタデータ)   (Thu, 16 Nov 2023 04:17:49 GMT)
  • PALとCOTの比較、「Overall, we demonstrate that, in the majority of cases, program-aided reasoners better know what they know than text-based counterparts.」とのこと。理由が知りたいところ。
  • リポジトリはhttps://github.com/mathuryash5/code-calibratesとのこと

Everything of Thoughts

  • Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation [42.5]
    効果的な思考設計は、パフォーマンス、効率、柔軟性の3つの重要な観点を考慮すべきである。 我々は,既存の思考パラダイムのペンローズ三角形の法則に反する,思考のすべて (XoT) と呼ばれる新しい思考促進手法を導入する。
    論文  参考訳(メタデータ)   (Tue, 7 Nov 2023 12:30:36 GMT)
  • of thoughtシリーズワイルカードの2番目(?)
  • 「XOT leverages pretrained reinforcement learning and Monte Carlo Tree Search (MCTS) to incorporate external domain knowledge into thoughts, thereby enhancing LLMs’ capabilities and enabling them to generalize to unseen problems efficiently.」ということでX-of-Thoughts  – arXiv最新論文の紹介 (devneko.jp)とも異なるアプローチ

X-of-Thoughts 

  • Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts [65.2]
    我々は,多種多様な推論の思考をLCMに促すことにより,総合的な問題解決フレームワーク XoT を提案する。 各質問に対して、XoTは常に最も適切なメソッドを選択して始まり、各メソッドを反復的に実行する。 各イテレーション内で、XoTは生成された回答の有効性を積極的にチェックし、外部エグゼクタからのフィードバックを取り入れます。
    論文  参考訳(メタデータ)   (Mon, 23 Oct 2023 07:02:20 GMT)
  • of thoughtシリーズのワイルカード版(?)、計画・推論・検証モジュールを持ち、of thoughtな手法を選び使い検証しながら問題を解く。様々なベンチマークで有効性を検証したとのこと。複数手法を組み合わせるアンサンブル的な動きでもあり検証から再計画をするエージェント的な動きでもあり、効果はありそう。
  • リポジトリはGitHub – tengxiaoliu/XoT: EMNLP 2023 Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts

Towards Better Chain-of-Thought Prompting Strategies: A Survey

  • Towards Better Chain-of-Thought Prompting Strategies: A Survey [60.8]
    CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の促進戦略として使用すると,その印象的な強度を示す。 近年,CoTの促進効果が注目されている。 この調査は、関連する研究全般の参考になるかもしれない。
    論文  参考訳(メタデータ)   (Sun, 8 Oct 2023 01:16:55 GMT)
  • Chain of Thoughtのサーベイ、新たな分野でありサーベイできるほどの研究があるというのも若干驚き。Extension Strategiesが非常に参考になった。

A Task-Solving Agent through Multi-Persona Self-Collaboration 

  • Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration [107.5]
    Solo Performance Prompting (SPP)は、複数のペルソナと多ターンの自己コラボレーションをすることで、単一の大言語モデル(LLM)を認知的シナジストに変換する。 LLMに複数のきめ細かいペルソナを割り当てることによって、単一または固定数のペルソナよりも優れた問題解決能力が得られることが判明した。
    論文  参考訳(メタデータ)   (Tue, 11 Jul 2023 14:45:19 GMT)
  • LLMを用いる際、ペルソナを動的に与えつつコラボレーションさせることで性能が上がるという報告。「Based on only a single large language model, SPP enables multi-persona self-collaboration which effectively elicits domain knowledge and reduces hallucination.」プロンプトのテクニックとして有名ではあるがきちんと評価していて興味深い。
  • リポジトリはGitHub – MikeWangWZHL/Solo-Performance-Prompting: Repo for paper “Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration”

SCoTD: Symbolic Chain-of-Thought Distillation

  • Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step [122.6]
    思考の連鎖は、素数大言語モデルに彼らの予測の合理化を口頭で示すよう促す。 オーダーオブマグニチュードの小さなモデルでも、チェーンオブ思想のプロンプトの恩恵を受けられることを示す。 そこで我々は,より大規模な教師モデルから抽出した合理化に基づいて,より小さな学生モデルを訓練する方法であるSymbolic Chain-of-Thought Distillation (SCoTD)を紹介した。
    論文  参考訳(メタデータ)   (Sat, 24 Jun 2023 20:15:07 GMT)
  • 小規模なモデルでもChain of Thougthが有効であること、また、それを生かすために有効な蒸留方法Symbolic Chain-of-thought Distillation (SCoTD)の提案。タスクにもよるがベンチマーク結果からはかなり有効な手法に見える。
  • リポジトリはhttps://github.com/allenai/cot_distillationとのことだが、現時点では404

LATM: LLMs As Tool Makers

  • Large Language Models as Tool Makers [53.8]
    我々は,LLMが独自の再利用可能なツールを作成する,LLMs As Tool Makers (LATM) と呼ばれるクローズドループフレームワークを提案する。 1) ツール作成: LLMは与えられたタスクのためのツールを作成するツールメーカーとして機能し、そこでツールはPythonユーティリティ関数として実装されます。 我々は,Big-Benchタスクを含む様々な複雑な推論タスクに対するアプローチの有効性を検証する。
    論文  参考訳(メタデータ)   (Fri, 26 May 2023 17:50:11 GMT)
  • GPT-4でツールを作りGPT-3.5-turboが利用するアプローチでGPT-3.5-turbo単体のCoTを大きく超えた性能を発揮し、かつコストも抑えられる、GPT-4を常に使用する場合に比べてコストパフォーマンスが高いというのが興味深い。
  • リポジトリはGitHub – ctlllll/LLM-ToolMaker