2022年8月29日 – arXiv最新論文の紹介

BEiT-3

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6]
汎用多目的基礎モデルBEiT-3を紹介する。視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文参考訳（メタデータ） (Mon, 22 Aug 2022 16:55:04 GMT)
- vision、vision-languageの複数のタスクでSoTAを達成するfoundation model
- 画像を外国語（言語）として扱いその後の処理を行っていることが高性能のカギという興味深い主張。Imglishという言葉も面白い。
- プロジェクトサイトはunilm/beit at master · microsoft/unilm (github.com)

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文参考訳（メタデータ） (Thu, 25 Aug 2022 17:45:49 GMT)
- 少量のデータを用いて画像生成モデルに新たな画像（例えば自分のペットなど）を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
- プロジェクトサイトはDreamBooth

Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization [108.1]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bを上回る。
論文参考訳（メタデータ） (Sun, 21 Aug 2022 01:00:54 GMT)
- 抽象型要約に最適化された言語モデルの提案。事前学習時のデータの使い方の工夫、（self-attentionより効率的とされる）disentangled attentionの利用、長文のための fusion-in-encoderによってパラメータ効率の高いモデルを構築。