Llama3.2, Molmo, EMOVA

先週はマルチモーダルで公開モデルであるLLMの話題が多かった。Llama 3.2はLlamaのアップデートであり90BでGPT-4o miniに匹敵、Molmoは72BでGPT-4oに競合するとのこと。商用モデルに公開モデルが追いつきつつある状況で今後が非常に楽しみである。

公開モデルではないようだが、複数のモデルを組み合わせたEMOVAはGemini Pro 1.5やGPT-4V以上、GPT-4oのスコアの95%以上を達成と主張している。

  • Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.2]
    Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。 私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。 近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
    論文  参考訳(メタデータ)   (Wed, 25 Sep 2024 17:59:51 GMT)
  • プロジェクトサイトはmolmo.allenai.org/blog、「The best-inclass 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation.」。PixMo (Pixels for Molmo)というデータセットを構築、その品質が性能向上に寄与しているとのこと。
  • デモはMolmo by Ai2 (allenai.org)、リポジトリはMolmo – a allenai Collection (huggingface.co)、Apache-2のOSSであることも凄い。
  • EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [150.9]
    GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。 本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
    論文  参考訳(メタデータ)   (Thu, 26 Sep 2024 16:44:02 GMT)
  • マルチモーダルなモデル、「EMOVA exceeds both GPT-4V and Gemini Pro 1.5 significantly on 10 out of 14 benchmarks, while for GPT-4o, EMOVA outperforms on both SEEDBench-Image and OCRBench, reaching over 95% of GPT-4o’s performance on ALL evaluated benchmarks except RealWorldQA.」とのこと。LLaMA-3.1-8B +InternViT-6B+ Speechモデル(既存アーキテクチャをベースに著者らがpre train)なアーキテクチャ。
  • プロジェクトサイトはEMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion (emova-ollm.github.io)

CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration 

  • CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.4]
    マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。 視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。 本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
    論文  参考訳(メタデータ)   (Tue, 17 Sep 2024 17:14:41 GMT)
  • MLLMにおいて悪意のある画像を介した攻撃が問題になるが、その対応に関する論文。
  • 「We first make the observation that despite the integration of visual modality makes the MLLMs more vulnerable, the inherent safetyawareness of MLLMs still exists.」はへーという感じ、

A Survey on Evaluation of Multimodal Large Language Models / A Comprehensive Survey of Story Evaluation

大規模言語モデル(LLM)及びそのマルチモーダルな拡張(MLLM)でできるようになったこと(できているようにみえること)は多いが、正しい評価をどうすればよいか不明瞭なものは多い。サーベイも数多く出ている。

  • A Survey on Evaluation of Multimodal Large Language Models [11.6]
    マルチモーダル大規模言語モデル(MLLM)は、強力な大規模言語モデル(LLM)を統合することで、人間の知覚と推論システムを模倣する この枠組みはMLLMに人間のような能力を与え、人工知能(AGI)の実現への潜在的経路を示唆している。 GPT-4V や Gemini のような全周MLLM の出現に伴い,様々な次元にわたってその能力を評価するための評価手法が開発されている。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 13:05:55 GMT)
  • MLLMの評価に関するサーベイ
  • What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.6]
    ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。 まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。 本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 20:35:42 GMT)
  • ストーリーに対する評価のサーベイ

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

  • mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.1]
    本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。 同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
    論文  参考訳(メタデータ)   (Thu, 05 Sep 2024 11:09:00 GMT)
  • 「Multimodel Large Language Models(MLLMs) have achieved promising OCRfree Document Understanding performance by increasing the supported resolution of document images.」から始まる論文で、High-resolution DocCompressorモジュールによって処理を簡略化・高速化とのこと。最初の主張には同意できる部分とできない部分があるが、Document UnderstandingタスクにおいてMLLMが強力なのは確か。
  • リポジトリはGitHub – X-PLUG/mPLUG-DocOwl: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

Visual Agents as Fast and Slow Thinkers

  • Visual Agents as Fast and Slow Thinkers [88.7]
    本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。 FaSTは、システム1/2モードを動的に選択するためにスイッチアダプタを使用し、異なるタスクの複雑さに対する問題解決アプローチを調整している。 モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
    論文  参考訳(メタデータ)   (Fri, 16 Aug 2024 17:44:02 GMT)
  • かの有名なFast and SlowをMLLMエージェントに適用。「the concepts of System 1 (fast, intuitive) and System 2 (slow, deliberate) thinking into visual agents, aiming to enhance their reasoning and decision-making capabilities.」というコンセプト
  • 効果があったとするが公平な比較になっているんだろうかという疑問がなくはない。

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding 

  • When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.4]
    CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。 復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 11:36:18 GMT)
  • ビデオ符号化に対するMLLMの適用、マルチモーダル性を活用した手法であり興味深い。実用化にはハードルがありそうだが、可能性を感じる結果。

VITA: Towards Open-Source Interactive Omni Multimodal LLM

A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks

  • A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.5]
    MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。 本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
    論文  参考訳(メタデータ)   (Fri, 2 Aug 2024 15:14:53 GMT)
  • マルチモーダルなLLMに関するサーベイ。多くの研究機関が取り組んでおり成果も多数。
  • 図がとても参考になる。

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

  • SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.2]
    SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。 データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
    論文  参考訳(メタデータ)   (Fri, 12 Jul 2024 16:37:59 GMT)
  • 科学論文を対象としたマルチモーダルなQAデータセット。zero shotな性能ではものにもよるがGPT-4oが優れているよう。「Furthermore, fine-tuning two open-source systems, LLaVA and InstructBLIP, on the SPIQA training set results in significant improvements over zero-shot evaluations, indicating promising avenues for designing specialized systems for scientific QA in the future.」とfine tuningの有効性を示唆しているのも興味深い。
  • リポジトリはGitHub – google/spiqa