Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 

PromptBench

  • PromptBench: A Unified Library for Evaluation of Large Language Models [33.8]
    大規模言語モデル(LLM)を評価する統合ライブラリであるPromptBenchを紹介する。 プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプトアタック、動的評価プロトコル、分析ツールなど、研究者が使いやすく拡張した重要なコンポーネントで構成されている。
    論文  参考訳(メタデータ)   (Wed, 13 Dec 2023 05:58:34 GMT)
  • LLM(に対するプロンプト)の評価を行うためのフレームワーク。簡単に使えそう&便利そう
  • リポジトリはGitHub – microsoft/promptbench: A unified evaluation framework for large language models

Program-Aided Reasoners (better) Know What They Know

  • Program-Aided Reasoners (better) Know What They Know [59.3]
    プログラム支援言語モデル(PAL)の校正と,5つのデータセットにまたがるテキストベースのChain-of-Thought(COT)技術の比較を行った。 以上の結果から, PALは75%の症例で校正の改善につながることが示唆された。
    論文  参考訳(メタデータ)   (Thu, 16 Nov 2023 04:17:49 GMT)
  • PALとCOTの比較、「Overall, we demonstrate that, in the majority of cases, program-aided reasoners better know what they know than text-based counterparts.」とのこと。理由が知りたいところ。
  • リポジトリはhttps://github.com/mathuryash5/code-calibratesとのこと

Thread of Thought

  • Thread of Thought Unraveling Chaotic Contexts [133.2]
    思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。 実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
    論文  参考訳(メタデータ)   (Wed, 15 Nov 2023 06:54:44 GMT)
  • プロンプトテクニック“Thread of Thought” (ThoT) strategyの提案。「chaotic context X and query Q」に対して「“[X] Q: [Q] Walk me through this context in manageable parts step by step, summarizing and analyzing as we go. A:”.」としてから回答を得るアプローチ。CoTより優れているとのこと。

Everything of Thoughts

  • Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation [42.5]
    効果的な思考設計は、パフォーマンス、効率、柔軟性の3つの重要な観点を考慮すべきである。 我々は,既存の思考パラダイムのペンローズ三角形の法則に反する,思考のすべて (XoT) と呼ばれる新しい思考促進手法を導入する。
    論文  参考訳(メタデータ)   (Tue, 7 Nov 2023 12:30:36 GMT)
  • of thoughtシリーズワイルカードの2番目(?)
  • 「XOT leverages pretrained reinforcement learning and Monte Carlo Tree Search (MCTS) to incorporate external domain knowledge into thoughts, thereby enhancing LLMs’ capabilities and enabling them to generalize to unseen problems efficiently.」ということでX-of-Thoughts  – arXiv最新論文の紹介 (devneko.jp)とも異なるアプローチ

DePT: Decoupled Prompt Tuning

  • DePT: Decoupled Prompt Tuning [133.7]
    この作業は、即時チューニングにおいてBase-New Tradeoff (BNT)ジレンマを突破する。 チューニングされたモデルがベースタスクに一般化されるほど、それが新しいタスクに一般化される。 提案するDecoupled Prompt Tuning (DePT) フレームワークは,プロンプトチューニング中に特徴チャネルから独立した特徴空間へベース固有の知識を分離する。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 05:45:40 GMT)
  • GitHub – Koorye/DePT: Offical implemention of paper “Decoupled Prompt Tuning”

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

  • Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
    最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。 既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。 本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
    論文  参考訳(メタデータ)   (Thu, 10 Aug 2023 07:02:13 GMT)
  • 包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI(controllable knowledge re-injection)フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
  • リポジトリはGitHub – DCDmllm/Cheetah

prompt extraction attacks

  • Prompts Should not be Seen as Secrets: Systematically Measuring Prompt Extraction Attack Success [13.8]
    本稿では,迅速な抽出攻撃の成功を測定するための枠組みを提案する。 単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 16:15:08 GMT)
  • Prompt抽出攻撃が高い確率で成功し、かつ、成功したことを確認可能であるという報告。防御も簡単ではないとのこと。。

PromptSRC: Prompting with Self-regulating ConstraintsPromptSRC:

An Empirical Study on Challenging Math Problem Solving with GPT-4

  • An Empirical Study on Challenging Math Problem Solving with GPT-4 [35.5]
    この研究は、より複雑で挑戦的な数学問題の解決にGPT-4を使うことのフロンティアを探求する。 本研究で新たに提案された会話型問題解決フレームワークであるMathChatを提案する。 我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。
    論文  参考訳(メタデータ)   (Thu, 8 Jun 2023 02:34:35 GMT)
  • ユーザプロキシーエージェントと会話しながら数学的な問題を解くフレームワークの提案。Program of ThoughtsやProgram Synthesis promptingを超える性能とのこと。
  • リポジトリはFLAML/flaml/autogen/math at gpt_math_solver · kevin666aa/FLAML · GitHub
  • Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.7]
    CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。 ツールインターフェース,すなわち DELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
    論文  参考訳(メタデータ)   (Sun, 4 Jun 2023 17:02:59 GMT)
  • こちらも数学的な問題を解くためのフレームワーク提案(データセットの提案も)
  • リポジトリはGitHub – RUCAIBox/CARP