GPT-4V, LLaVA-1.5

    GPT-4Vの登場でマルチモーダルモデルの活用が一気に進む感がある。さらにオープンな取り組みも進んでおり期待が大きい。

    • The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.4]
      大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデルを拡張する。 本稿では,GPT-4Vの能力の質と汎用性を調査するテストサンプルを含む,GPT-4Vが実行可能な興味深いタスクに焦点を当てた。 GPT-4Vの任意のインターリーブされたマルチモーダル入力処理における前例のない能力と、その能力の汎用性は、GPT-4Vを強力なマルチモーダルジェネラリストシステムにする。
      論文  参考訳(メタデータ)   (Fri, 29 Sep 2023 17:34:51 GMT)
    • GPT-4V(ision)のMSのよる評価。Visionの統合は自然な拡張であり、今までも研究され続けてきた分野ではあるが、GPT-4Vは強力なレベルになっているように見える。

    コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です