2022年8月8日 – arXiv最新論文の紹介

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion [60.1]
テキスト・ツー・イメージモデルは、自然言語による創造をガイドする前例のない自由を提供する。ここでは、そのような創造的な自由を可能にするシンプルなアプローチを提示します。一つの単語の埋め込みが、ユニークで多様な概念を捉えるのに十分であることを示す。
論文参考訳（メタデータ） (Tue, 2 Aug 2022 17:50:36 GMT)
- 数枚の画像をソースとしてテキスト指示により新たな画像を生み出す研究。ソース画像を表す疑似単語を探し、それを用いてテキスト入力による画像生成を行うアプローチ。生成する画像を狙いやすくなる有用そうな研究。
- プロジェクトサイトはAn Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (textual-inversion.github.io)

Efficient Long-Text Understanding with Short-Text Models [38.8]
SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。 SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
論文参考訳（メタデータ） (Mon, 1 Aug 2022 11:14:39 GMT)
- 短いテキストを処理するモデルをうまく利用して長文を処理するフレームワークの提案。
  - 非常に強力な手法そうであるがこの方針でdecodeがうまくいく理由が腑に落ちない・・・
- リポジトリはGitHub – Mivg/SLED: The official repository for Efficient Long-Text Understanding Using Short-Text Models (Ivgi et al., 2022) paper

日: 2022年8月8日