NaturalSpeech 2

  • NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.8]
    残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。 本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 17:08:20 GMT)
  • NaturalSpeech のバージョン2、Diffusion modelの利用、Speech prompting mechanisms for in-context learningによって強力な音声合成が可能
  • プロジェクトサイトはNaturalSpeech 2 (speechresearch.github.io)、サンプルの音声があるが、聞き分けがなかなか難しいレベルに感じる

Img2Vec

  • Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.6]
    我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。 Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
    論文  参考訳(メタデータ)   (Tue, 25 Apr 2023 03:01:37 GMT)
  • 2vec系、Img2Vec

Learning to Reason and Memorize with Self-Notes 

  • Learning to Reason and Memorize with Self-Notes [41.7]
    大規模言語モデルは、限られた文脈記憶と多段階推論に苦しむことが示されている。 本稿では,これらの問題を解決するための簡単な手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 1 May 2023 14:02:48 GMT)
  • Self-Noteというスクラッチパッドとして機能する部分をプロンプトに入れてモデル自体がそこをメモとして利用可能とする研究
  • LLMを使っていると長さ制限に苦しむことが多く非常に欲しい機能

今週のGPT-#

今週もGPT関連の動きは多い。オープンなモデル関連も引き続き盛んに取り組まれている。

Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs (mosaicml.com)

Releasing 3B and 7B RedPajama-INCITE family of models including base, instruction-tuned & chat models — TOGETHER

bigcode/starcoderbase · Hugging Face

  • Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.7]
    このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。 実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 17:56:11 GMT)
  • 進化系統図がバズった論文、Encoder、Decoder、Encoder-Decoderでの区分けは興味深くざっくりとした整理としては有用そう(細かい点ではいろいろあるが)
  • 実践的な内容が整理されていて「Latency is a crucial factor to consider in real-world applications of LLMs.」はまさにそう!と思った。
  • Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [22.0]
    大規模言語モデル(LLM)は、特に高度なシナリオにおいて、それらの推論を形式化し、検証し、伝達するために使用することができる。 LLMは、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に制限される能力をもたらす。 我々は、従来の因果解析手法とともに、人間のドメイン知識のプロキシとして、そして因果解析を構築する際の人的労力を減らすために、LLMを使用することを想定する。
    論文  参考訳(メタデータ)   (Fri, 28 Apr 2023 19:00:43 GMT)
  • 因果推論でのLLM利用、今まで人間でないと難しかった推論を代替するものとして確かに有効な気がする。
  • GPTシリーズごと及びプロンプトを変えた時の性能が整理されていてこちらも参考になる。やはりGPT-4の性能は高く最善のプロンプトでは現在のSoTAを超えているとのこと。
  • Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 [5.6]
    OpenAIモデルでは,著作権資料のコレクションが広く記憶されていることが判明した。 記憶の度合いは、それらの本がウェブに現れる頻度と結びついている。
    論文  参考訳(メタデータ)   (Fri, 28 Apr 2023 22:35:03 GMT)
  • 結構な書籍の内容がGPT-4の中に記憶されているのでは?という内容。membership inference系。
  • (当然だが)記憶されているデータに対してはGPT-4の推論性能が高いとのことで性能評価の時には注意が必要(ということはわかりつつも具体的な対策は簡単ではない…)
  • リポジトリが公開されている GitHub – bamman-group/gpt4-books: Code and data to support “Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4”
  • Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation [19.5]
    我々は,LLM合成コードの機能的正しさを厳格に評価するEvalPlusを提案する。 EvalPlusはベース評価データセットを取り込み、自動入力生成ステップを使用して、大量の新しいテスト入力を生成し、多様化する。 人気のあるHUMANEVALベンチマークを拡張し、81倍の追加でHUMANEVAL+を構築します。
    論文  参考訳(メタデータ)   (Tue, 2 May 2023 05:46:48 GMT)
  • ChatGPTによって合成されたコードが本当に正しいかを検証するデータセットの提案、通常手作りのテストケースをベースに評価するが、ここでは自動テスト手法が用いられていてより厳密なテストが行われている。結果モデル間の差異がより強調される結果が得られていて、GPT-4はやはりすごいという感想。
  • リポジトリはGitHub – evalplus/evalplus: EvalPlus for rigourous evaluation of LLM-synthesized code
  • New Trends in Machine Translation using Large Language Models: Case Examples with ChatGPT [22.1]
    機械翻訳(MT)は近年,ディープラーニングを用いて大きな進歩を遂げている。 本稿では,大規模言語モデル(LLM)を用いたMTの興味深い方向性を提案する。
    論文  参考訳(メタデータ)   (Tue, 2 May 2023 03:27:27 GMT)
  • 機械翻訳へのLLM応用、Stylized MT、Interactive MT、Translation Memory-based MT、New Evaluation Paradigm for MT using LLM、Privacy in MT using LLM全部とても重要な動き、
  • Personalized MTも今まではなかなか困難だったが、LLM+プロンプトでかなり有効に実現できそうな予感(機械翻訳でのIn-Context Learning(GPT-4 + OpenICL) | ぷるーふおぶこんせぷと (staka.jp)の実験もそれを目指している)
  • Should ChatGPT and Bard Share Revenue with Their Data Providers? A New Business Model for the AI Era [4.3]
    大規模言語モデルのような大規模なAIツールは、継続的に改善するためには、より高品質なデータを必要とする。 まったく新しい収益分配ビジネスモデルは、AIツールからほぼ独立したものでなければならないが、データエンゲージメントを測定するために、即時ベースのスコアリングシステムを確立する必要がある。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 05:21:09 GMT)
  • GPT時代の収益モデルに関する提案、面白いと思いつつ結構な難題
  • AutoML-GPT: Automatic Machine Learning with GPT [74.3]
    本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。 本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。 このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 02:09:43 GMT)
  • AutoMLとの統合、橋渡し用にGPTを利用と近い発想の論文が色々出ている分野

LLMの拡張、テーブルデータを併用した推論への応用

GPT-#で大規模言語モデルが話題になっているが、その拡張を行う研究も非常に盛ん。

  • mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [55.7]
    mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。 トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。 実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 13:27:01 GMT)
  • LLMのマルチモーダル化、まずVisual Encoder/Visual AbstractorをLLMを凍結して事前学習、その後LoRAを用いてLLMのInstruction tuning
  • リポジトリはGitHub – X-PLUG/mPLUG-Owl: mPLUG-Owl🦉: Modularization Empowers Large Language Models with Multimodality
  • Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning [45.0]
    大規模言語モデル(LLM)を効率的なテーブルベースの推論のためのデコンパイラとして活用する。 巨大な証拠(巨大な表)をサブエビデンス(小さな表)に分解し、無駄な情報の干渉を軽減する。 我々は,思考連鎖のジレンマを軽減するために,「パーシング・エグゼクティオン・フィリング」戦略を提案する。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 11:24:10 GMT)
  • Table データを併用した推論へのLLM適用、 Decompose evidence And questions for effective Table-basEd Reasoning (DATER)提案、優れた性能を達成。初めてTabFactで人間のパフォーマンスを超えたとのこと。
  • テーブルデータの分解、質問の分解、SQLクエリへの変換・実行、 in-context prompting とLLM関連のテクニックが高度に使われている印象で問題の解き方がとても参考になる

DataComp

  • DataComp: In search of the next generation of multimodal datasets [130.6]
    我々は、トレーニングコードを修正し、研究者が新しいトレーニングセットを提案して革新するベンチマークであるDataCompを紹介する。 Common Crawlの12.8Bイメージテキストペアの候補プールを中心にしたデータセット実験用のテストベッドを提供する。 ベンチマーク参加者は、新しいフィルタリングテクニックを設計し、新しいデータソースをキュレートし、標準化されたCLIPトレーニングコードを実行し、38の下流テストセットでテストすることで、新しいデータセットを評価します。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 11:37:18 GMT)
  • 良いマルチモーダルデータセットを作ることを目的としたベンチマーク(コンペティション?)データセットのフィルタリングは重要で様々なテクニックが開発・公開されることに期待大。
  • プロジェクトサイトはDataComp

ブラックボックス最適化

Black-box Optimization に関する論文

  • OpenBox: A Python Toolkit for Generalized Black-box Optimization [33.9]
    Black-box Optimization (BBO) には、自動機械学習、実験設計、データベースノブチューニングなど、幅広い応用がある。 本稿では,ユーザビリティを向上したオープンソースのBBOツールキットであるOpenBoxについて述べる。 ユーザがタスクを定義したり管理したりするためのユーザフレンドリーなインターフェースと視覚化を実装している。
    論文  参考訳(メタデータ)   (Wed, 26 Apr 2023 07:13:50 GMT)
  • 様々な手法が実装されているOpenBoxの論文、個別手法のリポジトリとしてはよく見るような気がする
  • GitHub – PKU-DAIR/open-box: Generalized and Efficient Blackbox Optimization System [SIGKDD’21].

WizardLM

  • WizardLM: Empowering Large Language Models to Follow Complex Instructions [67.4]
    ヒトの代わりに大規模言語モデルを用いて、様々なレベルの複雑さを持つ大量の命令データを作成する方法を示す。 我々は提案したEvol-Instructを使って、より複雑な命令と微調整のLLaMAを段階的に書き直す。 複雑性バランステストベッド上での人間評価は、Evol-Instructからの指示が人間が作ったものよりも優れていることを示している。
    論文  参考訳(メタデータ)   (Mon, 24 Apr 2023 16:31:06 GMT)
  • 現実問題として規約的にできない場合はあるが、LLMを用いた instruction dataの作成。様々な複雑さのデータを作れるのが特徴とのこと。作成したデータ+LLaMAで作ったモデルはAlpaca、Vicunaより優れているように見えるがChatGPTには及んでいなさそう。
  • リポジトリはGitHub – nlpxucan/WizardLM: WizardLM: Empowering Large Pre-Trained Language Models to Follow Complex Instructions

バイアス修正

同日に公平性関連の論文が出ており非常に参考になった。社会実装上とても大事。

  • FairBalance: How to Achieve Equalized Odds With Data Pre-processing [33.0]
    本研究は、機械学習ソフトウェアにおける等化オッズフェアネスを達成するための、単純で効果的な前処理アプローチを提供することにより、ソフトウェア工学社会の利益を目指している。 学習データに計算重みを割り当てることで,各階層群のクラス分布のバランスをとる前処理アルゴリズムであるFairBalanceを提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Apr 2023 13:48:17 GMT)
  • Equalized Oddsを達成するための前処理手法の提案
  • 性能を完全に維持できているわけではないが優秀そうな方法
  • リポジトリはGitHub – hil-se/FairBalance

Multimodal Image Synthesis and Editing: A Survey

  • Multimodal Image Synthesis and Editing: A Survey [104.0]
    コンピュータビジョンとディープラーニングの研究において、マルチモーダル情報間の効果的な相互作用と融合が重要な役割を担っている。 マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。 近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。 ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
    論文  参考訳(メタデータ)   (Mon, 24 Apr 2023 12:43:35 GMT)
  • 画像生成・編集に関するサーベイのver4
  • GitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey