MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

  • MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.9]
    MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。 開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。 この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
    論文  参考訳(メタデータ)   (Fri, 22 Nov 2024 18:59:54 GMT)
  • MLLMの評価に関するサーベイで、リポジトリ GitHub – BradyFU/Awesome-Multimodal-Large-Language-Models at Benchmarks が非常に充実。

Liquid: Language Models are Scalable Multi-modal Generators

  • Liquid: Language Models are Scalable Multi-modal Generators [112.7]
    Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。 従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。 初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 16:48:16 GMT)
  • 既存のLLMに対して「The only modification is the addition of 8192 new learnable embeddings for discrete image tokens. Correspondingly, we extend the original LM head by 8192 dimensions to enable the model to predict both text and image tokens within the same embedding space.」という変更を加え画像を扱うという研究
  • 「For image generation, Liquid outperforms other auto-regressive based models, as well as some diffusion models like SD-XL and achieve FID of 5.47 on MJHQ-30K, demonstrating that LLMs can acquire excellent imagery capabilities efficiently with a limited amount of data.」という結果に驚きだが、さらには「For visual understanding, Liquid surpasses Chameleon and achieved results comparable to those of well-established MLLMs. In text-only tasks, Liquid achieves comparable performance with Chameleon, which used mix pre-training on a very large scale, and surpasses the performance of LLAMA2, demonstrating undegraded linguistic capabilities.」とのこと。