- Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.1]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。 本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (Thu, 3 Mar 2022 18:54:59 GMT)- Vision-Languageな研究の流れが分かるサーベイ。であると同時に特に最近は月単位で新たな手法が提案されていることが分かる。