2022年2月10日 – arXiv最新論文の紹介

DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers [83.1]
マルチモーダル変換言語モデルであるDALL-Eとその変種は高品質なテキスト・画像生成機能を示している。興味深い画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。本研究では,このようなテキスト対画像生成トランスフォーマの推論能力と社会的バイアスについて詳細に検討する。近年のテキスト・ツー・イメージモデルでは,色認識や空間的関係の理解よりもオブジェクトの認識とカウントが優れていることを示す。
論文参考訳（メタデータ） (Tue, 8 Feb 2022 18:36:52 GMT)
- DALL-Eのようなマルチモーダルな画像生成モデルに対する評価データセットでobject recognition, object counting, color recognition, spatial relation understandingの4つのスキルを評価対象としている。Social Biasに関する観点が入っているのが興味深い。
- リポジトリはGitHub – j-min/DallEval: DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers

The Met Dataset: Instance-level Recognition for Artworks [19.4]
この研究は、アートワークの領域における大規模インスタンスレベルの認識のためのデータセットを導入している。私たちは、約224kクラスの大規模なトレーニングセットを形成するために、The Met博物館のオープンアクセスコレクションに依存しています。
論文参考訳（メタデータ） (Thu, 3 Feb 2022 18:13:30 GMT)
- メトロポリタン美術館がスタジオ等で撮影したデータとオンラインから集められたデータを用いたInstance-level recognitionのデータセット。規模が大きく題材も面白い。
- プロジェクトサイトはThe Met dataset (cvut.cz)、GitHub – nikosips/met: A large-scale dataset for instance-level recognition for artworks is introduced.

日: 2022年2月10日