PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation

  • PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation [22.7]
    大規模言語モデル(LLM)はNLPの分野に革命をもたらした。 本研究では,機械翻訳(MT)および要約データセット上で,オープンソースのLLMベースのメトリクスに対して,720以上のプロンプトテンプレートを評価する。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 17:56:29 GMT)
  • 機械翻訳と要約を対象とした大規模なプロンプトテンプレートの評価。複数のオープンなLLMで検証しており、LLM間の性能差も参考になる。コードが公開されたら細かく見てみたいところ。
  • プロジェクトサイトはNLLG (nl2g.github.io)、リポジトリはGitHub – Gringham/PrExMe

The Prompt Report: A Systematic Survey of Prompting Techniques 

  • The Prompt Report: A Systematic Survey of Prompting Techniques [42.6]
    本稿では, プロンプトの分類を組立て, 利用分析を行うことにより, プロンプトの構造的理解を確立した。 本稿では,33の語彙の包括的語彙,58のテキストのみのプロンプト技術,40のモダリティのテクニックを提示する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 18:10:11 GMT)
  • プロンプトテクニックのサーベイ
  • 本当に色々あるという感想。そして本サーベイに入っていないものもいっぱいある…。

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 

PromptBench

  • PromptBench: A Unified Library for Evaluation of Large Language Models [33.8]
    大規模言語モデル(LLM)を評価する統合ライブラリであるPromptBenchを紹介する。 プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプトアタック、動的評価プロトコル、分析ツールなど、研究者が使いやすく拡張した重要なコンポーネントで構成されている。
    論文  参考訳(メタデータ)   (Wed, 13 Dec 2023 05:58:34 GMT)
  • LLM(に対するプロンプト)の評価を行うためのフレームワーク。簡単に使えそう&便利そう
  • リポジトリはGitHub – microsoft/promptbench: A unified evaluation framework for large language models

Program-Aided Reasoners (better) Know What They Know

  • Program-Aided Reasoners (better) Know What They Know [59.3]
    プログラム支援言語モデル(PAL)の校正と,5つのデータセットにまたがるテキストベースのChain-of-Thought(COT)技術の比較を行った。 以上の結果から, PALは75%の症例で校正の改善につながることが示唆された。
    論文  参考訳(メタデータ)   (Thu, 16 Nov 2023 04:17:49 GMT)
  • PALとCOTの比較、「Overall, we demonstrate that, in the majority of cases, program-aided reasoners better know what they know than text-based counterparts.」とのこと。理由が知りたいところ。
  • リポジトリはhttps://github.com/mathuryash5/code-calibratesとのこと

Thread of Thought

  • Thread of Thought Unraveling Chaotic Contexts [133.2]
    思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。 実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
    論文  参考訳(メタデータ)   (Wed, 15 Nov 2023 06:54:44 GMT)
  • プロンプトテクニック“Thread of Thought” (ThoT) strategyの提案。「chaotic context X and query Q」に対して「“[X] Q: [Q] Walk me through this context in manageable parts step by step, summarizing and analyzing as we go. A:”.」としてから回答を得るアプローチ。CoTより優れているとのこと。

Everything of Thoughts

  • Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation [42.5]
    効果的な思考設計は、パフォーマンス、効率、柔軟性の3つの重要な観点を考慮すべきである。 我々は,既存の思考パラダイムのペンローズ三角形の法則に反する,思考のすべて (XoT) と呼ばれる新しい思考促進手法を導入する。
    論文  参考訳(メタデータ)   (Tue, 7 Nov 2023 12:30:36 GMT)
  • of thoughtシリーズワイルカードの2番目(?)
  • 「XOT leverages pretrained reinforcement learning and Monte Carlo Tree Search (MCTS) to incorporate external domain knowledge into thoughts, thereby enhancing LLMs’ capabilities and enabling them to generalize to unseen problems efficiently.」ということでX-of-Thoughts  – arXiv最新論文の紹介 (devneko.jp)とも異なるアプローチ

DePT: Decoupled Prompt Tuning

  • DePT: Decoupled Prompt Tuning [133.7]
    この作業は、即時チューニングにおいてBase-New Tradeoff (BNT)ジレンマを突破する。 チューニングされたモデルがベースタスクに一般化されるほど、それが新しいタスクに一般化される。 提案するDecoupled Prompt Tuning (DePT) フレームワークは,プロンプトチューニング中に特徴チャネルから独立した特徴空間へベース固有の知識を分離する。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 05:45:40 GMT)
  • GitHub – Koorye/DePT: Offical implemention of paper “Decoupled Prompt Tuning”

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

  • Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
    最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。 既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。 本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
    論文  参考訳(メタデータ)   (Thu, 10 Aug 2023 07:02:13 GMT)
  • 包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI(controllable knowledge re-injection)フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
  • リポジトリはGitHub – DCDmllm/Cheetah

prompt extraction attacks

  • Prompts Should not be Seen as Secrets: Systematically Measuring Prompt Extraction Attack Success [13.8]
    本稿では,迅速な抽出攻撃の成功を測定するための枠組みを提案する。 単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 16:15:08 GMT)
  • Prompt抽出攻撃が高い確率で成功し、かつ、成功したことを確認可能であるという報告。防御も簡単ではないとのこと。。