prompt extraction attacks

  • Prompts Should not be Seen as Secrets: Systematically Measuring Prompt Extraction Attack Success [13.8]
    本稿では,迅速な抽出攻撃の成功を測定するための枠組みを提案する。 単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 16:15:08 GMT)
  • Prompt抽出攻撃が高い確率で成功し、かつ、成功したことを確認可能であるという報告。防御も簡単ではないとのこと。。

PromptSRC: Prompting with Self-regulating ConstraintsPromptSRC:

An Empirical Study on Challenging Math Problem Solving with GPT-4

  • An Empirical Study on Challenging Math Problem Solving with GPT-4 [35.5]
    この研究は、より複雑で挑戦的な数学問題の解決にGPT-4を使うことのフロンティアを探求する。 本研究で新たに提案された会話型問題解決フレームワークであるMathChatを提案する。 我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。
    論文  参考訳(メタデータ)   (Thu, 8 Jun 2023 02:34:35 GMT)
  • ユーザプロキシーエージェントと会話しながら数学的な問題を解くフレームワークの提案。Program of ThoughtsやProgram Synthesis promptingを超える性能とのこと。
  • リポジトリはFLAML/flaml/autogen/math at gpt_math_solver · kevin666aa/FLAML · GitHub
  • Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.7]
    CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。 ツールインターフェース,すなわち DELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
    論文  参考訳(メタデータ)   (Sun, 4 Jun 2023 17:02:59 GMT)
  • こちらも数学的な問題を解くためのフレームワーク提案(データセットの提案も)
  • リポジトリはGitHub – RUCAIBox/CARP

InstructZero

ExpertPrompting

  • ExpertPrompting: Instructing Large Language Models to be Distinguished Experts [93.6]
    ExpertPromptingは、著名な専門家として答えるために、大きな言語モデルの可能性を秘めている。 我々はGPT-3.5を使って新しい命令追跡データを作成し、ExpertLLaMAと呼ばれる競合するオープンソースのチャットアシスタントを訓練する。
    論文  参考訳(メタデータ)   (Wed, 24 May 2023 03:51:31 GMT)
  • 工夫したプロンプト戦略を使ってデータセットを作成しLLaMA 7Bをチューニング、Vicunaなどを超えChatGPTの96%の能力を達成とのこと。Bardを超えているようにみえるのも興味深い。
  • リポジトリはGitHub – OFA-Sys/ExpertLLaMA: An opensource ChatBot built with ExpertPrompting which achieves 96% of ChatGPT’s capability.

Segment Everything Everywhere All at Once

A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges

  • A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges [25.3]
    限定ラベル付きデータを用いたモデル一般化能力の向上を目的として,事前学習,即時予測の新たな訓練パラダイムが提案されている。 この調査は構造化グラフ間のギャップを埋め、将来の方法論開発を促進するために設計を促す試みである。
    論文  参考訳(メタデータ)   (Mon, 13 Mar 2023 16:49:43 GMT)
  • グラフ構造の知識をプロンプトに反映、または、プロンプトを使ってグラフを分析などグラフ構造とPromptを用いたモデルの関係をサーベイした論文
  • 短めであるがいろいろな試みがなされているのがわかる。

A Picture is Worth a Thousand Words: Language Models Plan from Pixels

  • A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.9]
    計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。 本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
    論文  参考訳(メタデータ)   (Thu, 16 Mar 2023 02:02:18 GMT)
  • Visualプロンプトによる計画作成。PLMをうまく使うためソフトプロンプトの形でデータを扱っているよう
  • 言語モデルか?という感じの使い方もかなりうまく動く報告が多くて面白い。GPT-4ではマルチモーダル対応でもう少しうまく取り合変えそう(将来的にはTextlessNLPっぽく扱ったりするんだろうか。)

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification

  • Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.7]
    本研究では,実環境における職種分類の課題について検討する。 目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 17:01:59 GMT)
  • 「Graduate Job Classification(求職が大学・入学レベルの職位に適切かどうかを判断する問題)」を例にPLMを用いた分類モデルとLLM+Promptの分類モデル構築を比較した論文。LLMはtext-davinci-002、text-davinci-003、gpt-3.5-turbo-0301を対象にPromptエンジニアリングを実施、10000件のデータを7000件の学習データと3000件のテストデータに分けて検証している。結果、GPT-3.5は優れた性能を発揮している(メトリクスによってはDeBERTa-V3の負けているが…)
  • 色々検証しているとGPT-3.5からかなり強力になっている印象でこの論文の結果にも納得感がある。GPT-4を使うとどうなるか非常に楽しみ。
  • プロンプトを改善していく過程も非常に参考になる。

Language Is Not All You Need

  • Language Is Not All You Need: Aligning Perception with Language Models [110.5]
    Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。 我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。 実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。 また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
    論文  参考訳(メタデータ)   (Wed, 1 Mar 2023 11:04:51 GMT)
  • 言語モデルの限界(テキスト)を超えるマルチモーダルモデルKOSMOS-1の提案。Image CaptioningやVQAで優れた性能(Flamingoと競合)。Web-based Structural Reading Comprehensionでマルチモーダルの恩恵を受けるのは確かに、という感想で実用性もありそう。
  •  KOSMOS-1 is about 1.6Bとのことで昨今の大規模言語モデルに比べると非常に大きいとも言えないサイズ。
  • 論文にはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalitiesが書かれているが現時点では公開踏破されていないよう