- Language Is Not All You Need: Aligning Perception with Language Models [110.5]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。 我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。 実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。 また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (Wed, 1 Mar 2023 11:04:51 GMT) - 言語モデルの限界(テキスト)を超えるマルチモーダルモデルKOSMOS-1の提案。Image CaptioningやVQAで優れた性能(Flamingoと競合)。Web-based Structural Reading Comprehensionでマルチモーダルの恩恵を受けるのは確かに、という感想で実用性もありそう。
- KOSMOS-1 is about 1.6Bとのことで昨今の大規模言語モデルに比べると非常に大きいとも言えないサイズ。
- 論文にはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalitiesが書かれているが現時点では公開踏破されていないよう
タグ: Prompt
Prompt Injection
- More than you’ve asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models [64.7]
検索とAPI呼び出し機能を備えた大規模言語モデルの拡張は、全く新しい攻撃ベクトルを誘導することを示す。 これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
論文 参考訳(メタデータ) (Thu, 23 Feb 2023 17:14:38 GMT) - プロンプトインジェクションに関する論文、指摘されている通りApplication-Integrated LLMでは大きな脅威になりうる(そして対策も難しい)。この論文では信頼できない外部ソースを取りに行かせるタイプの攻撃をIndirect Prompt Injectionと呼んでおり、Bingの新機能のようにデータを取得しに行くタイプのLLMでは問題になりそう(もちろん、将来ToolformerのようにAPIを呼びに行くようなAIではさらに問題が大きい)
- 下記のようにうまくプロンプトを作ろうとする方向性もあれば、攻撃できないかという方向性もあり、研究は様々だと思う。(解析的に明らかにしにくい分野でもあり多方面からの研究は非常に重要だとも思う)
- Prompting GPT-3 To Be Reliable [117.2]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (Mon, 17 Oct 2022 14:52:39 GMT) - GitHub – NoviScl/GPT3-Reliability
Towards Agile Text Classifiers for Everyone
- Towards Agile Text Classifiers for Everyone [10.4]
本稿では,アジャイルテキスト分類の手法を紹介し,評価する。 そこで本研究では,PaLM 62Bのような高速チューニング型大規模言語モデルに対して,80例までのラベル付きデータセットを適用すれば,最先端のパフォーマンスを実現することができることを示す。 これはテキスト分類のパラダイムシフト、特により安全なオンライン談話をサポートするモデルに有効である、と我々は主張する。
論文 参考訳(メタデータ) (Mon, 13 Feb 2023 17:34:13 GMT) - 大規模言語モデル+ソフトプロンプトの強力さが分かる論文
- PaLM 62Bモデルのプロンプトチューニングの場合100以下の事例で十分な性能のテキスト分類器を構築可能とのこと。この方針だと大量のアノテーションを行わなくても良く実用的。GPT-3.5などのfew shotも強力だが、頑張ればアノテーションできる量の情報を過不足なく使うという方針もとても有望だと思う。
Chain-of-Thoughtの改善
マルチモーダル化、プロンプトの合成、新たな構築フレームワークとChain-of-Thoughtに関する改善を対象とした論文が複数出ていた。有用なテクニックとして認知されたのかなと思う&改善が結構な幅で行われているのが凄い。
- Multimodal Chain-of-Thought Reasoning in Language Models [80.9]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。 本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。 Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (Thu, 2 Feb 2023 07:51:19 GMT)
- Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models [121.5]
大規模言語モデルはチェーン・オブ・ソート・プロンプトを使用して様々な推論タスクを実行でき、ステップ・バイ・ステップのデモを通じて回答を見つけることができる。 そこで本研究では,手作りの例を数種類活用して,モデルにさらに多くの例を生成する手法であるSynthetic promptingを紹介する。 本手法は数値的,記号的,アルゴリズム的推論タスクにおいて評価し,既存のプロンプト手法よりも優れていることを示す。
論文 参考訳(メタデータ) (Wed, 1 Feb 2023 17:33:12 GMT)
- Faithful Chain-of-Thought Reasoning [29.9]
CoT(Chain-of-Thought)は、複雑な推論タスクにおいて、言語モデル(LM)のパフォーマンスを高める。 推論タスクを2段階に分解する忠実な構築フレームワークであるFithful CoTを提案する。 提案手法は,4つの異なる領域の10の推論データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (Tue, 31 Jan 2023 03:04:26 GMT)
Prompting Large Language Model for Machine Translation: A Case Study
- Prompting Large Language Model for Machine Translation: A Case Study [87.9]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。 本稿では,プロンプトテンプレートと実演例選択の要因について検討する。 本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (Wed, 18 Jan 2023 11:30:05 GMT) - 機械翻訳のためのプロンプト戦略の検討
- プロンプトテンプレートの作り方や最初の例の与え方が翻訳に大きく影響するようで、その点はそうだろうと思うが、一般的に有効な戦略を作るのはなかなか難しそうとの印象。
VALL-E
- Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.6]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。 具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。 Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (Thu, 5 Jan 2023 15:37:15 GMT) - 最近の言語モデルと似たアーキテクチャを用いたText to Speechモデルの提案。この分野にもpromptを用いたモデルが出てきているのが興味深い。
- リポジトリはunilm/valle at master · microsoft/unilm · GitHub、でもページがVALL-E (valle-demo.github.io)にある。高品質な合成ができているように思う。
X-Prompt: eXtensible Prompt
- Extensible Prompts for Language Models [88.2]
我々は、自然言語(NL)を超えた大規模言語モデル(LLM)を促進するためのX-Promptを提案する。 X-Prompt は、NL だけでなく、NL の言葉がほとんど説明できないものを表す架空の単語の記述語彙も LLM に指示する。 X-Promptの有望な結果は、コミュニケーションギャップを埋めるために人間とLLMの高度な相互作用に近づく可能性を示している。
論文 参考訳(メタデータ) (Thu, 1 Dec 2022 16:11:56 GMT) - 自然言語で表現できないものを扱えるよう拡張したプロンプトの提案。
- 何かをシャープに表すことができるのは有効そう。引用されている通り、Fugu-MT 論文翻訳(概要): An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (fugumt.com)に近そう
- プロジェクトサイトはmicrosoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities (github.com)
ChatGPTとtext-davinci-003
- ChatGPT: Optimizing Language Models for Dialogue (openai.com)
- 極めて強力な対話用の言語モデル。Google検索か!?というレベルで回答をしてくれる。(間違っている場合も多いが…)
- Reinforcement Learning from Human Feedback (RLHF)を用いており、GPT-3.5をfine tuningしているとのこと。
- 11/29に出たtext-davinci-003もGPT-3.5シリーズのモデルでInstructGPT(code-davinci-002)ベースのtext-davinci-002を改善したものとのことで、こちらも性能が高い。NLPを変える可能性を感じている。
- Model index for researchers – OpenAI API
PromptTTS / PromptSpeechデータセット
- PromptTTS: Controllable Text-to-Speech with Text Descriptions [32.6]
文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。 PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。 実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
論文 参考訳(メタデータ) (Tue, 22 Nov 2022 10:58:38 GMT) - テキスト読み上げにもプロンプトを使っていこうという報告。データセットまで作っているのが素晴らしい。
- プロジェクトサイトはPromptTTS: controllable text-to-speech with text descriptions – Speech Research
Prompting PaLM for Translation
- Prompting PaLM for Translation: Assessing Strategies and Performance [16.7]
経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。 我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
論文 参考訳(メタデータ) (Wed, 16 Nov 2022 18:42:37 GMT)- 機械翻訳へのPaLM適用の取り組み
- 様々な手法を比較しているが、現状では教師有りな仕組みには及ばないとのこと。(及ばないとはいえ善戦とはいえるような気はしないでもない)