Llama3.2, Molmo, EMOVA

先週はマルチモーダルで公開モデルであるLLMの話題が多かった。Llama 3.2はLlamaのアップデートであり90BでGPT-4o miniに匹敵、Molmoは72BでGPT-4oに競合するとのこと。商用モデルに公開モデルが追いつきつつある状況で今後が非常に楽しみである。

公開モデルではないようだが、複数のモデルを組み合わせたEMOVAはGemini Pro 1.5やGPT-4V以上、GPT-4oのスコアの95%以上を達成と主張している。

  • Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.2]
    Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。 私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。 近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
    論文  参考訳(メタデータ)   (Wed, 25 Sep 2024 17:59:51 GMT)
  • プロジェクトサイトはmolmo.allenai.org/blog、「The best-inclass 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation.」。PixMo (Pixels for Molmo)というデータセットを構築、その品質が性能向上に寄与しているとのこと。
  • デモはMolmo by Ai2 (allenai.org)、リポジトリはMolmo – a allenai Collection (huggingface.co)、Apache-2のOSSであることも凄い。
  • EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [150.9]
    GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。 本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
    論文  参考訳(メタデータ)   (Thu, 26 Sep 2024 16:44:02 GMT)
  • マルチモーダルなモデル、「EMOVA exceeds both GPT-4V and Gemini Pro 1.5 significantly on 10 out of 14 benchmarks, while for GPT-4o, EMOVA outperforms on both SEEDBench-Image and OCRBench, reaching over 95% of GPT-4o’s performance on ALL evaluated benchmarks except RealWorldQA.」とのこと。LLaMA-3.1-8B +InternViT-6B+ Speechモデル(既存アーキテクチャをベースに著者らがpre train)なアーキテクチャ。
  • プロジェクトサイトはEMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion (emova-ollm.github.io)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です