PaLI: Pathways Language and Image

  • PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.1]
    PaLI(PathwaysLanguage and Image model)は、このアプローチを言語と視覚の合同モデリングに拡張する。 我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 17:24:07 GMT)
    • 13BパラメータのmT5-XXL、2Bパラメータ のViT-G or 4Bパラメータの ViT-e を用いたマルチリンガル・マルチモーダルなモデル、FlamingoやCoCaを超える性能を達成とのこと。多言語化においてはモデルサイズが重要(かつ大規模でないと厳しそう)という印象。
    • モデルカード、データカードがgoogle-research/pali at master · google-research/google-research (github.com)に存在。本件で構築されたデータセットWebLI は9.6Gインスタンス、260TB…

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です