- An Introduction to Vision-Language Modeling [128.6]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。 本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (Mon, 27 May 2024 15:01:23 GMT) - VLMのサーベイ、であり、教科書的な内容