CLIPstyler: テキストを用いた画像スタイル変換

  • CLIPstyler: Image Style Transfer with a Single Text Condition [34.2]
    既存のニューラルスタイル転送法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために参照スタイル画像が必要である。 そこで本稿では,スタイルイメージを必要とせず,所望のスタイルをテキストで記述した上でのみ,スタイル転送を可能にする新しいフレームワークを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 1 Dec 2021 09:48:53 GMT)
    • テキストの指示を用いて画像のスタイルを変換する研究。「画像」+「Fireというテキスト」を与えると炎で包まれているような画像が生成される。サンプルが面白い。

ImaginE: 想像力を持った評価指標

  • ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation [53.6]
    我々は、自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 CLIPとDALL-Eの助けを借りて、大規模な画像テキストペアで事前訓練された2つのクロスモーダルモデルを作成し、テキストスニペットの具体的想像力として自動的に画像を生成する。 いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることは、NLG評価にマルチモーダル情報を導入する大きな可能性を示している。
    論文  参考訳(メタデータ)   (Thu, 10 Jun 2021 17:59:52 GMT)
    • 文章生成タスクの評価指標としてマルチモーダル性を利用しようという研究。BERTScoreの発展形のようなもの。テキストから想像される画像を使っての評価が人の評価に近い場合があるというのは興味深い(BERT Scoreで良さそうだが・・・)。発想&論文中に出てくる画像は非常に面白い。