2022年9月19日 – arXiv最新論文の紹介

PaLI: Pathways Language and Image

PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.1]
PaLI(PathwaysLanguage and Image model)は、このアプローチを言語と視覚の合同モデリングに拡張する。我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 17:24:07 GMT)
- 13BパラメータのmT5-XXL、2BパラメータのViT-G or 4Bパラメータの ViT-e を用いたマルチリンガル・マルチモーダルなモデル、FlamingoやCoCaを超える性能を達成とのこと。多言語化においてはモデルサイズが重要（かつ大規模でないと厳しそう）という印象。
- モデルカード、データカードがgoogle-research/pali at master · google-research/google-research (github.com)に存在。本件で構築されたデータセットWebLI は9.6Gインスタンス、260TB…

CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3]
本稿でビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 05:47:02 GMT)
- CLIPをビデオ対応させる（画像モデルを最小限の変更でビデオドメインに適合させる）研究。MSR-VTTなど複数のデータセットでSoTAを主張。
- リポジトリはXPretrain/CLIP-ViP at main · microsoft/XPretrain (github.com)

OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.6]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文参考訳（メタデータ） (Thu, 15 Sep 2022 17:59:59 GMT)
- 1つのFoundation Modelを目指した新たな成果、生成系/非生成系の両タスクへの対応、Image-Language/Video-Languageの両方へ対応などVIOLETやFlorenceといったモデルよりも対応可能な範囲が広がっており、性能も優れている。「visual/video question answering」には課題があるとのこと。