- PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.1]
PaLI(PathwaysLanguage and Image model)は、このアプローチを言語と視覚の合同モデリングに拡張する。 我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
論文 参考訳(メタデータ) (Wed, 14 Sep 2022 17:24:07 GMT)- 13BパラメータのmT5-XXL、2Bパラメータ のViT-G or 4Bパラメータの ViT-e を用いたマルチリンガル・マルチモーダルなモデル、FlamingoやCoCaを超える性能を達成とのこと。多言語化においてはモデルサイズが重要(かつ大規模でないと厳しそう)という印象。
- モデルカード、データカードがgoogle-research/pali at master · google-research/google-research (github.com)に存在。本件で構築されたデータセットWebLI は9.6Gインスタンス、260TB…