- Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models [7.5]
本稿では,二項論理推論タスクに特化して設計された,素早い工学手法について述べる。 この枠組みでは、裁判官、検察官、弁護士が、より信頼性が高く正確な推論を容易にするためにこの技術を利用する。 実験結果から,本手法は既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (Wed, 25 Sep 2024 05:28:05 GMT) - 「JoT employs three roles—lawyer, prosecutor, and judge—to facilitate more reliable and accurate reasoning by the model.」という手法の提案
- 有効なタスクとそうでないタスクがあるよう。三審制とか取り入れると性能が上がったりするんやろうか。
タグ: x-of-thought
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities
- Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [31.0]
マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。 ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。 この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
論文 参考訳(メタデータ) (Thu, 20 Jun 2024 17:59:45 GMT) - MLLMでstep by stepに相当する処理を行うため仮想的なホワイトボードを使うという論文、「We accomplish this by generating code that can create a visual, then returning the visual back to the model for further reasoning.」という感じでコードを作成し画像でフィードバックするアプローチ。
- 有効な場面はありそう。名前のインパクトがすごい。
Buffer of Thoughts, Chain of Agents
なんとか of Thoughts、Chain of なんとかというタイプの改善手法提案は多い。
- Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models [65.5]
Buffer of Thoughts (BoT) は、斬新で多目的な思考補足的推論手法である。 そこで我々はメタバッファーを提案し,一連の情報的高レベルの思考を記憶する。 各問題に対して、関連する思考タイミングを検索し、特定の推論構造で適応的にインスタンス化する。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 17:22:08 GMT) - メタバッファにあるThought template を使用しながら深く試行していく手法の提案。ToTなどを上回る性能を主張。メタバッファ自体を更新していくアーキテクチャで評価が難しそうな気がする。
- リポジトリはGitHub – YangLing0818/buffer-of-thought-llm: Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models
- Chain of Agents: Large Language Models Collaborating on Long-Context Tasks [39.3]
CoA(Chain-of-Agents)は、自然言語によるマルチエージェントコラボレーションを利用して、情報集約とコンテキスト推論を可能にする新しいフレームワークである。 CoAは読み出しと推論をインターリーブすることで入力全体を処理し、各エージェントに短いコンテキストを割り当てることで、長いコンテキストのフォーカス問題を軽減します。
論文 参考訳(メタデータ) (Tue, 04 Jun 2024 23:36:08 GMT) - 主に長いコンテキストの問題に対応するためのマルチエージェントなフレームワークの提案。長いデータをチャンクに分けワーカエージェントに処理させ(シーケンシャルな通信を含む)、マネージャーエージェントが取りまとめるような動作。よく使われるRAGより高性能であるとのこと。
RoT: Enhancing Large Language Models with Reflection on Search Trees
- RoT: Enhancing Large Language Models with Reflection on Search Trees [39.6]
本稿では,木探索に基づくプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)について紹介する。 強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。 本稿では,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択法を提案する。
論文 参考訳(メタデータ) (Mon, 08 Apr 2024 12:31:23 GMT) - x-of-thoughtのTではないが、類するものを改善するフレームワークの提案。面白く実用性はあるかもだが、公平な比較になってるのかはやや疑問。
- リポジトリはhuiwy/reflection-on-trees (github.com)
AutoRace: AUTOmated ReAsoning Chain Evaluation
- LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models [25.5]
完全自動推論チェーン評価のためのAutoRaceを導入する。 既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化するためのライブラリである LLM Reasoners も開発している。
論文 参考訳(メタデータ) (Mon, 08 Apr 2024 06:35:09 GMT) - 推論過程を評価するベンチマーク。GPT-4を用いた自動評価。
- プロジェクトサイトはHome | Reasoners (llm-reasoners.net)
Diffusion of Thoughts
- Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [98.5]
Diffusion-of-Thought (DoT) は、拡散過程を通じて時間とともに拡散する推論ステップを可能にする。 実験の結果,マルチ桁乗算と小学校数学における DoT の有効性が示された。 DoTは、自己整合性復号化のような既存の推論エンハンス技術による有望な自己補正能力とメリットを紹介している。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 16:23:28 GMT) - CoTの改善に拡散モデルを使おうとする取り組み。implict CoTより優れているとのこと。面白い取り組みである一方「A notable limitation of DoT is its requirement for additional training to achieve accurate reasoning.」とある通り、この条件下だと比較ができているのかはやや疑問。汎用的なものを作れるんだろうか。。。
- リポジトリはHKUNLP/diffusion-of-thoughts (github.com)
MoTCoder: Modular-of-Thought Coder
- MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [60.5]
本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。 調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (Tue, 26 Dec 2023 08:49:57 GMT) - コード生成時にサブモジュールのヘッダー+docstringの生成→実装部分の生成という段階を踏む手法の提案。同一パラメータ数(15B)でWizardCoderより優れているとのこと。
- リポジトリはdvlab-research/MoTCoder: This is the official code repository of MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks. (github.com)
Exchange-of-Thought
- Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication [76.0]
大規模言語モデル(LLM)は、最近、Chain-of-Thoughtテクニックによる複雑な推論タスクにおいて大きな進歩を遂げました。 本稿では,問題解決時のクロスモデル通信を可能にする新しいフレームワークであるExchange-of-Thought (EoT)を提案する。
論文 参考訳(メタデータ) (Mon, 4 Dec 2023 11:53:56 GMT) - モデル間通信をしながら回答を導くフレームワークの提案。ChatEval – arXiv最新論文の紹介 (devneko.jp)に近い動作のように思える。
- 性能は通常のCoTよりも良いとのこと。コスト分析があるのも面白い。
Creative Leap-of-Thought
- Let’s Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation [100.9]
Chain-of-Thought(CoT)は、大きな言語モデルをステップバイステップで推論し、その論理的推論能力を動機付ける。 大規模言語モデル(LLM)におけるLeap-of-Thought(LoT)能力について検討する。 LoTは、強い結びつきと知識の飛躍を含む、シークエンシャルで創造的なパラダイムである。
論文 参考訳(メタデータ) (Wed, 6 Dec 2023 03:20:29 GMT) - 「While effective for logical tasks, CoT is not conducive to creative problem-solving which often requires out-of-box thoughts and is crucial for innovation advancements.」の解決のため instruction tuning に大喜利データを使うなど非常に面白い内容。人間の評価によって効果を確認とのこと。
- リポジトリはGitHub – sail-sg/CLoT: Official Codebase of our Paper: “Let’s Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation”