GPT-4Vの登場でマルチモーダルモデルの活用が一気に進む感がある。さらにオープンな取り組みも進んでおり期待が大きい。
- The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.4]
大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデルを拡張する。 本稿では,GPT-4Vの能力の質と汎用性を調査するテストサンプルを含む,GPT-4Vが実行可能な興味深いタスクに焦点を当てた。 GPT-4Vの任意のインターリーブされたマルチモーダル入力処理における前例のない能力と、その能力の汎用性は、GPT-4Vを強力なマルチモーダルジェネラリストシステムにする。
論文 参考訳(メタデータ) (Fri, 29 Sep 2023 17:34:51 GMT) - GPT-4V(ision)のMSのよる評価。Visionの統合は自然な拡張であり、今までも研究され続けてきた分野ではあるが、GPT-4Vは強力なレベルになっているように見える。
- Improved Baselines with Visual Instruction Tuning [79.3]
LLaVAの完全接続型ビジョン指向クロスモーダルコネクタは驚くほど強力で,データ効率がよいことを示す。 11のベンチマークで最先端を達成するための、より強力なベースラインを確立します。 最後の13Bチェックポイントは1.2万の公開データのみを使用し、単一の8-A100ノードで1日でフルトレーニングを終えます。
論文 参考訳(メタデータ) (Thu, 5 Oct 2023 17:59:56 GMT) - OSSのマルチモーダルモデル、LLaVA-1.5の論文。多くのベンチマークでSoTAを主張。
- プロジェクトサイト、デモはLLaVA (llava-vl.github.io)、リポジトリはGitHub – haotian-liu/LLaVA: Visual Instruction Tuning: Large Language-and-Vision Assistant built towards multimodal GPT-4 level capabilities.