InstructZero

ExpertPrompting

  • ExpertPrompting: Instructing Large Language Models to be Distinguished Experts [93.6]
    ExpertPromptingは、著名な専門家として答えるために、大きな言語モデルの可能性を秘めている。 我々はGPT-3.5を使って新しい命令追跡データを作成し、ExpertLLaMAと呼ばれる競合するオープンソースのチャットアシスタントを訓練する。
    論文  参考訳(メタデータ)   (Wed, 24 May 2023 03:51:31 GMT)
  • 工夫したプロンプト戦略を使ってデータセットを作成しLLaMA 7Bをチューニング、Vicunaなどを超えChatGPTの96%の能力を達成とのこと。Bardを超えているようにみえるのも興味深い。
  • リポジトリはGitHub – OFA-Sys/ExpertLLaMA: An opensource ChatBot built with ExpertPrompting which achieves 96% of ChatGPT’s capability.

Segment Everything Everywhere All at Once

A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges

  • A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges [25.3]
    限定ラベル付きデータを用いたモデル一般化能力の向上を目的として,事前学習,即時予測の新たな訓練パラダイムが提案されている。 この調査は構造化グラフ間のギャップを埋め、将来の方法論開発を促進するために設計を促す試みである。
    論文  参考訳(メタデータ)   (Mon, 13 Mar 2023 16:49:43 GMT)
  • グラフ構造の知識をプロンプトに反映、または、プロンプトを使ってグラフを分析などグラフ構造とPromptを用いたモデルの関係をサーベイした論文
  • 短めであるがいろいろな試みがなされているのがわかる。

A Picture is Worth a Thousand Words: Language Models Plan from Pixels

  • A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.9]
    計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。 本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
    論文  参考訳(メタデータ)   (Thu, 16 Mar 2023 02:02:18 GMT)
  • Visualプロンプトによる計画作成。PLMをうまく使うためソフトプロンプトの形でデータを扱っているよう
  • 言語モデルか?という感じの使い方もかなりうまく動く報告が多くて面白い。GPT-4ではマルチモーダル対応でもう少しうまく取り合変えそう(将来的にはTextlessNLPっぽく扱ったりするんだろうか。)

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification

  • Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.7]
    本研究では,実環境における職種分類の課題について検討する。 目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
    論文  参考訳(メタデータ)   (Tue, 14 Mar 2023 17:01:59 GMT)
  • 「Graduate Job Classification(求職が大学・入学レベルの職位に適切かどうかを判断する問題)」を例にPLMを用いた分類モデルとLLM+Promptの分類モデル構築を比較した論文。LLMはtext-davinci-002、text-davinci-003、gpt-3.5-turbo-0301を対象にPromptエンジニアリングを実施、10000件のデータを7000件の学習データと3000件のテストデータに分けて検証している。結果、GPT-3.5は優れた性能を発揮している(メトリクスによってはDeBERTa-V3の負けているが…)
  • 色々検証しているとGPT-3.5からかなり強力になっている印象でこの論文の結果にも納得感がある。GPT-4を使うとどうなるか非常に楽しみ。
  • プロンプトを改善していく過程も非常に参考になる。

Language Is Not All You Need

  • Language Is Not All You Need: Aligning Perception with Language Models [110.5]
    Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。 我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。 実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。 また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
    論文  参考訳(メタデータ)   (Wed, 1 Mar 2023 11:04:51 GMT)
  • 言語モデルの限界(テキスト)を超えるマルチモーダルモデルKOSMOS-1の提案。Image CaptioningやVQAで優れた性能(Flamingoと競合)。Web-based Structural Reading Comprehensionでマルチモーダルの恩恵を受けるのは確かに、という感想で実用性もありそう。
  •  KOSMOS-1 is about 1.6Bとのことで昨今の大規模言語モデルに比べると非常に大きいとも言えないサイズ。
  • 論文にはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalitiesが書かれているが現時点では公開踏破されていないよう

Prompt Injection

  • More than you’ve asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models [64.7]
    検索とAPI呼び出し機能を備えた大規模言語モデルの拡張は、全く新しい攻撃ベクトルを誘導することを示す。 これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
    論文  参考訳(メタデータ)   (Thu, 23 Feb 2023 17:14:38 GMT)
  • プロンプトインジェクションに関する論文、指摘されている通りApplication-Integrated LLMでは大きな脅威になりうる(そして対策も難しい)。この論文では信頼できない外部ソースを取りに行かせるタイプの攻撃をIndirect Prompt Injectionと呼んでおり、Bingの新機能のようにデータを取得しに行くタイプのLLMでは問題になりそう(もちろん、将来ToolformerのようにAPIを呼びに行くようなAIではさらに問題が大きい)
  • 下記のようにうまくプロンプトを作ろうとする方向性もあれば、攻撃できないかという方向性もあり、研究は様々だと思う。(解析的に明らかにしにくい分野でもあり多方面からの研究は非常に重要だとも思う)
  • Prompting GPT-3 To Be Reliable [117.2]
    この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 14:52:39 GMT)
  • GitHub – NoviScl/GPT3-Reliability

Towards Agile Text Classifiers for Everyone

  • Towards Agile Text Classifiers for Everyone [10.4]
    本稿では,アジャイルテキスト分類の手法を紹介し,評価する。 そこで本研究では,PaLM 62Bのような高速チューニング型大規模言語モデルに対して,80例までのラベル付きデータセットを適用すれば,最先端のパフォーマンスを実現することができることを示す。 これはテキスト分類のパラダイムシフト、特により安全なオンライン談話をサポートするモデルに有効である、と我々は主張する。
    論文  参考訳(メタデータ)   (Mon, 13 Feb 2023 17:34:13 GMT)
  • 大規模言語モデル+ソフトプロンプトの強力さが分かる論文
  • PaLM 62Bモデルのプロンプトチューニングの場合100以下の事例で十分な性能のテキスト分類器を構築可能とのこと。この方針だと大量のアノテーションを行わなくても良く実用的。GPT-3.5などのfew shotも強力だが、頑張ればアノテーションできる量の情報を過不足なく使うという方針もとても有望だと思う。

Chain-of-Thoughtの改善 

マルチモーダル化、プロンプトの合成、新たな構築フレームワークとChain-of-Thoughtに関する改善を対象とした論文が複数出ていた。有用なテクニックとして認知されたのかなと思う&改善が結構な幅で行われているのが凄い。

  • Multimodal Chain-of-Thought Reasoning in Language Models [80.9]
    大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。 本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。 Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 07:51:19 GMT)
  • Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models [121.5]
    大規模言語モデルはチェーン・オブ・ソート・プロンプトを使用して様々な推論タスクを実行でき、ステップ・バイ・ステップのデモを通じて回答を見つけることができる。 そこで本研究では,手作りの例を数種類活用して,モデルにさらに多くの例を生成する手法であるSynthetic promptingを紹介する。 本手法は数値的,記号的,アルゴリズム的推論タスクにおいて評価し,既存のプロンプト手法よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Wed, 1 Feb 2023 17:33:12 GMT)
  • Faithful Chain-of-Thought Reasoning [29.9]
    CoT(Chain-of-Thought)は、複雑な推論タスクにおいて、言語モデル(LM)のパフォーマンスを高める。 推論タスクを2段階に分解する忠実な構築フレームワークであるFithful CoTを提案する。 提案手法は,4つの異なる領域の10の推論データセットに対して有効であることを示す。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 03:04:26 GMT)