ソース画像+テキスト指示による新たな画像の生成

  • An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion [60.1]
    テキスト・ツー・イメージモデルは、自然言語による創造をガイドする前例のない自由を提供する。 ここでは、そのような創造的な自由を可能にするシンプルなアプローチを提示します。 一つの単語の埋め込みが、ユニークで多様な概念を捉えるのに十分であることを示す。
    論文  参考訳(メタデータ)   (Tue, 2 Aug 2022 17:50:36 GMT)

SLED(SLidingEncoder and Decoder): 短文用モデルを長文に適用する手法

  • Efficient Long-Text Understanding with Short-Text Models [38.8]
    SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。 入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。 SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
    論文  参考訳(メタデータ)   (Mon, 1 Aug 2022 11:14:39 GMT)