2022年11月7日 – arXiv最新論文の紹介

Crosslingual Generalization through Multitask Finetuning [80.9]
マルチタスク誘導ファインチューニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。 MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。英語のプロンプトを用いた英語タスクにおける多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文参考訳（メタデータ） (Thu, 3 Nov 2022 13:19:32 GMT)
Multitask prompted ﬁnetuningの多言語への適用について詳細に調べた論文。「We conjecture that the models are learning higher-level capabilities that are both task- and languageagnostic.」は非常に興味深い（と同時に驚き）。
プロジェクトサイトはbigscience-workshop/xmtf: Crosslingual Generalization through Multitask Finetuning (github.com)

UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance [40.5]
我々は,シンプルかつ複雑なシーン画像生成を統一する,シンプルで効果的なアプローチ,すなわちUPaintingを提案する。 UPaintingは、事前訓練された画像テキストマッチングモデルからテキスト条件拡散モデルにクロスモーダルガイダンスを統合する。 UPaintingは、単純なシーンと複雑なシーンの両方において、キャプションの類似性と画像の忠実さという点で、他のモデルよりも大幅に優れています。
論文参考訳（メタデータ） (Mon, 31 Oct 2022 02:33:17 GMT)
Baiduによる品質の高い画像生成モデルの提案、MS-COCO with zero-shot FID ではSoTAとはいかないまでも良いスコア。本当に競争が激しい分野。。。

eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.5]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (Wed, 2 Nov 2022 17:43:04 GMT)
こちらはNVIDIAの成果
プロジェクトサイトはeDiffi: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers (deepimagination.cc)

日: 2022年11月7日