A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models  / Leap of Thought

  • A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.2]
    オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。 LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。 その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
    論文  参考訳(メタデータ)   (Sat, 25 Jan 2025 09:11:15 GMT)
  • LLMの創造性を測るベンチマークの提案、大喜利に注目しているのが興味深い(This paper investigates creativity in LLMs and provides an in-depth analysis of their Leap-of-Thought (LoT) abilities through the Oogiri game.)。
  • (よく見る結果と異なり)GPT-4oをQwen-VLやGemini 1.5 Proが抜いているスコアになっている。
  • プロジェクトサイトはLoTbench

Path-of-Thoughts: Extracting and Following Paths for Robust Relational Reasoning with Large Language Models 

  • Path-of-Thoughts: Extracting and Following Paths for Robust Relational Reasoning with Large Language Models [62.1]
    本稿では,関係推論に対処するための新しいフレームワークであるPath-of-Thoughts(PoT)を提案する。 PoTは、問題コンテキスト内の重要なエンティティ、関係、属性を識別するタスクに依存しないグラフを効率的に抽出する。 PoTは、提案された質問に対応するグラフ内の関連する推論連鎖を特定し、潜在的な答えの推論を容易にする。
    論文  参考訳(メタデータ)   (Mon, 23 Dec 2024 20:27:12 GMT)
  • 「Path-of-Thoughts (PoT), a novel framework that decomposes a relational reasoning task into three stages: graph extraction, path identification, and reasoning.」、ベンチマークで効果を確認とのこと。
  • 形式言語 – arXiv最新論文の紹介という感じのアプローチと似ているような気がしなくもない。

Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning

  • Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.1]
    我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。 FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。 我々は,過去の誤りからリアルタイムの誤り訂正と学習を可能にする動的自己補正戦略を導入する。
    論文  参考訳(メタデータ)   (Thu, 12 Dec 2024 09:01:18 GMT)
  • ToTに似ているが、「By introducing multiple reasoning trees (e g , ToT (Yao et al , 2024) or MCTSr (Zhang et al , 2024)) for independent decision-making and employing sparse activation strategies to filter the results of key trees, we can construct an integrated framework known as the “forest of thought” to enhance the reasoning capability of LLMs」と独立したツリーを束ねるアプローチ

Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models 

  • Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models [7.5]
    本稿では,二項論理推論タスクに特化して設計された,素早い工学手法について述べる。 この枠組みでは、裁判官、検察官、弁護士が、より信頼性が高く正確な推論を容易にするためにこの技術を利用する。 実験結果から,本手法は既存手法よりも有意に優れていた。
    論文  参考訳(メタデータ)   (Wed, 25 Sep 2024 05:28:05 GMT)
  • 「JoT employs three roles—lawyer, prosecutor, and judge—to facilitate more reliable and accurate reasoning by the model.」という手法の提案
  • 有効なタスクとそうでないタスクがあるよう。三審制とか取り入れると性能が上がったりするんやろうか。

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities 

  • Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [31.0]
    マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。 ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。 この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
    論文  参考訳(メタデータ)   (Thu, 20 Jun 2024 17:59:45 GMT)
  • MLLMでstep by stepに相当する処理を行うため仮想的なホワイトボードを使うという論文、「We accomplish this by generating code that can create a visual, then returning the visual back to the model for further reasoning.」という感じでコードを作成し画像でフィードバックするアプローチ。
  • 有効な場面はありそう。名前のインパクトがすごい。

Buffer of Thoughts, Chain of Agents

なんとか of Thoughts、Chain of なんとかというタイプの改善手法提案は多い。

  • Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models [65.5]
    Buffer of Thoughts (BoT) は、斬新で多目的な思考補足的推論手法である。 そこで我々はメタバッファーを提案し,一連の情報的高レベルの思考を記憶する。 各問題に対して、関連する思考タイミングを検索し、特定の推論構造で適応的にインスタンス化する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 17:22:08 GMT)
  • メタバッファにあるThought template を使用しながら深く試行していく手法の提案。ToTなどを上回る性能を主張。メタバッファ自体を更新していくアーキテクチャで評価が難しそうな気がする。
  • リポジトリはGitHub – YangLing0818/buffer-of-thought-llm: Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

  • Chain of Agents: Large Language Models Collaborating on Long-Context Tasks [39.3]
    CoA(Chain-of-Agents)は、自然言語によるマルチエージェントコラボレーションを利用して、情報集約とコンテキスト推論を可能にする新しいフレームワークである。 CoAは読み出しと推論をインターリーブすることで入力全体を処理し、各エージェントに短いコンテキストを割り当てることで、長いコンテキストのフォーカス問題を軽減します。
    論文  参考訳(メタデータ)   (Tue, 04 Jun 2024 23:36:08 GMT)
  • 主に長いコンテキストの問題に対応するためのマルチエージェントなフレームワークの提案。長いデータをチャンクに分けワーカエージェントに処理させ(シーケンシャルな通信を含む)、マネージャーエージェントが取りまとめるような動作。よく使われるRAGより高性能であるとのこと。

RoT: Enhancing Large Language Models with Reflection on Search Trees 

  • RoT: Enhancing Large Language Models with Reflection on Search Trees [39.6]
    本稿では,木探索に基づくプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)について紹介する。 強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。 本稿では,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択法を提案する。
    論文  参考訳(メタデータ)   (Mon, 08 Apr 2024 12:31:23 GMT)
  • x-of-thoughtのTではないが、類するものを改善するフレームワークの提案。面白く実用性はあるかもだが、公平な比較になってるのかはやや疑問。
  • リポジトリはhuiwy/reflection-on-trees (github.com)

AutoRace: AUTOmated ReAsoning Chain Evaluation

  • LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models [25.5]
    完全自動推論チェーン評価のためのAutoRaceを導入する。 既存の推論アルゴリズムと新しい推論アルゴリズムのモジュール実装を標準化するためのライブラリである LLM Reasoners も開発している。
    論文  参考訳(メタデータ)   (Mon, 08 Apr 2024 06:35:09 GMT)
  • 推論過程を評価するベンチマーク。GPT-4を用いた自動評価。
  • プロジェクトサイトはHome | Reasoners (llm-reasoners.net)

Diffusion of Thoughts

  • Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [98.5]
    Diffusion-of-Thought (DoT) は、拡散過程を通じて時間とともに拡散する推論ステップを可能にする。 実験の結果,マルチ桁乗算と小学校数学における DoT の有効性が示された。 DoTは、自己整合性復号化のような既存の推論エンハンス技術による有望な自己補正能力とメリットを紹介している。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 16:23:28 GMT)
  • CoTの改善に拡散モデルを使おうとする取り組み。implict CoTより優れているとのこと。面白い取り組みである一方「A notable limitation of DoT is its requirement for additional training to achieve accurate reasoning.」とある通り、この条件下だと比較ができているのかはやや疑問。汎用的なものを作れるんだろうか。。。
  • リポジトリはHKUNLP/diffusion-of-thoughts (github.com)

MoTCoder: Modular-of-Thought Coder