- xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs [112.4]
ビデオ用マルチモーダル言語モデルであるxGen-MM-Vid(B-3-Video)を提案する。 BLIP-3-Videoは、従来のビジュアルトークン化器に加えて「時間エンコーダ」を利用する。 BLIP-3-Videoは、より大規模な最先端モデルに匹敵するビデオ質問応答精度が得られることを実験的に確認する。
論文 参考訳(メタデータ) (Mon, 21 Oct 2024 17:59:11 GMT) - salesforceによる動画対応マルチモーダルLLM、軽量だが高い性能。
- リポジトリはxGen-MM-Vid (BLIP-3-Video)