DALL-E – arXiv最新論文の紹介

DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers [83.1]
マルチモーダル変換言語モデルであるDALL-Eとその変種は高品質なテキスト・画像生成機能を示している。興味深い画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。本研究では,このようなテキスト対画像生成トランスフォーマの推論能力と社会的バイアスについて詳細に検討する。近年のテキスト・ツー・イメージモデルでは,色認識や空間的関係の理解よりもオブジェクトの認識とカウントが優れていることを示す。
論文参考訳（メタデータ） (Tue, 8 Feb 2022 18:36:52 GMT)
- DALL-Eのようなマルチモーダルな画像生成モデルに対する評価データセットでobject recognition, object counting, color recognition, spatial relation understandingの4つのスキルを評価対象としている。Social Biasに関する観点が入っているのが興味深い。
- リポジトリはGitHub – j-min/DallEval: DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers

ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation [53.6]
我々は、自然言語生成のための想像力に基づく自動評価指標ImaginEを提案する。 CLIPとDALL-Eの助けを借りて、大規模な画像テキストペアで事前訓練された2つのクロスモーダルモデルを作成し、テキストスニペットの具体的想像力として自動的に画像を生成する。いくつかのテキスト生成タスクにまたがる実験により、我々のImaginEに想像力を加えることは、NLG評価にマルチモーダル情報を導入する大きな可能性を示している。
論文参考訳（メタデータ） (Thu, 10 Jun 2021 17:59:52 GMT)
- 文章生成タスクの評価指標としてマルチモーダル性を利用しようという研究。BERTScoreの発展形のようなもの。テキストから想像される画像を使っての評価が人の評価に近い場合があるというのは興味深い（BERT Scoreで良さそうだが・・・）。発想＆論文中に出てくる画像は非常に面白い。

タグ: DALL-E