GUI Agents with Foundation Models: A Comprehensive Survey

  • GUI Agents with Foundation Models: A Comprehensive Survey [53.0]
    この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。 データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。 本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
    論文  参考訳(メタデータ)   (Thu, 07 Nov 2024 17:28:10 GMT)
  • MLLMベースのGUIエージェントのサーベイ
  • 研究が進んでいると思ったらサーベイが発表されるスピード感がこの分野の現状を表していると思う。

DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding 

  • DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding [128.9]
    大規模マルチモーダルモデル(LMM)を活用してエンドツーエンドの文書編集を行う新しいフレームワークDocEdit-v2を紹介する。 1) Doc2Commandは、興味のある編集領域(RoI)を同時にローカライズし、ユーザの編集要求を編集コマンドに曖昧にする; (2) LLMベースのコマンド改革により、元々はジェネラリストのLMMに適した編集命令に、特別なソフトウェア用に意図されたコマンドを調整して編集する; 3) DocEdit-v2は、GPT-4VやGeminiのような大規模マルチモーダルモデルを介してこれらの出力を処理し、文書レイアウトを解析し、編集を実行する。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 19:59:04 GMT)
  • MLLMを用いて文書をE2Eで編集する手法の提案。HTMLを修正する編集用コマンドを介するアプローチ。「(a) multimodal grounding and edit command generation via the Doc2Command, (b) Command Reformulation prompting to transform the edit command into LMM-specific prompt instruction, (c) prompting LMMs like GPT-4V and Gemini to facilitate nuanced and localized editing of the document’s HTML representation.」というフロー。(E2E・・・?)

LLaVA-Critic: Learning to Evaluate Multimodal Models

  • LLaVA-Critic: Learning to Evaluate Multimodal Models [110.1]
    本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
    論文  参考訳(メタデータ)   (Thu, 03 Oct 2024 17:36:33 GMT)
  • マルチモーダルなタスクに対しての評価を行うモデルの提案。データ構築もMLLMを多用するアプローチになっていて興味深いが、ライセンス的に大丈夫なんだろうかという若干の不安。
  • プロジェクトサイトはLLaVA-OneVision: Easy Visual Task Transfer (llava-vl.github.io)

Llama3.2, Molmo, EMOVA

先週はマルチモーダルで公開モデルであるLLMの話題が多かった。Llama 3.2はLlamaのアップデートであり90BでGPT-4o miniに匹敵、Molmoは72BでGPT-4oに競合するとのこと。商用モデルに公開モデルが追いつきつつある状況で今後が非常に楽しみである。

公開モデルではないようだが、複数のモデルを組み合わせたEMOVAはGemini Pro 1.5やGPT-4V以上、GPT-4oのスコアの95%以上を達成と主張している。

  • Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.2]
    Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。 私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。 近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
    論文  参考訳(メタデータ)   (Wed, 25 Sep 2024 17:59:51 GMT)
  • プロジェクトサイトはmolmo.allenai.org/blog、「The best-inclass 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation.」。PixMo (Pixels for Molmo)というデータセットを構築、その品質が性能向上に寄与しているとのこと。
  • デモはMolmo by Ai2 (allenai.org)、リポジトリはMolmo – a allenai Collection (huggingface.co)、Apache-2のOSSであることも凄い。
  • EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [150.9]
    GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。 本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
    論文  参考訳(メタデータ)   (Thu, 26 Sep 2024 16:44:02 GMT)
  • マルチモーダルなモデル、「EMOVA exceeds both GPT-4V and Gemini Pro 1.5 significantly on 10 out of 14 benchmarks, while for GPT-4o, EMOVA outperforms on both SEEDBench-Image and OCRBench, reaching over 95% of GPT-4o’s performance on ALL evaluated benchmarks except RealWorldQA.」とのこと。LLaMA-3.1-8B +InternViT-6B+ Speechモデル(既存アーキテクチャをベースに著者らがpre train)なアーキテクチャ。
  • プロジェクトサイトはEMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion (emova-ollm.github.io)

CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration 

  • CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.4]
    マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。 視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。 本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
    論文  参考訳(メタデータ)   (Tue, 17 Sep 2024 17:14:41 GMT)
  • MLLMにおいて悪意のある画像を介した攻撃が問題になるが、その対応に関する論文。
  • 「We first make the observation that despite the integration of visual modality makes the MLLMs more vulnerable, the inherent safetyawareness of MLLMs still exists.」はへーという感じ、

A Survey on Evaluation of Multimodal Large Language Models / A Comprehensive Survey of Story Evaluation

大規模言語モデル(LLM)及びそのマルチモーダルな拡張(MLLM)でできるようになったこと(できているようにみえること)は多いが、正しい評価をどうすればよいか不明瞭なものは多い。サーベイも数多く出ている。

  • A Survey on Evaluation of Multimodal Large Language Models [11.6]
    マルチモーダル大規模言語モデル(MLLM)は、強力な大規模言語モデル(LLM)を統合することで、人間の知覚と推論システムを模倣する この枠組みはMLLMに人間のような能力を与え、人工知能(AGI)の実現への潜在的経路を示唆している。 GPT-4V や Gemini のような全周MLLM の出現に伴い,様々な次元にわたってその能力を評価するための評価手法が開発されている。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 13:05:55 GMT)
  • MLLMの評価に関するサーベイ
  • What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.6]
    ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。 まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。 本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 20:35:42 GMT)
  • ストーリーに対する評価のサーベイ

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

  • mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.1]
    本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。 同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
    論文  参考訳(メタデータ)   (Thu, 05 Sep 2024 11:09:00 GMT)
  • 「Multimodel Large Language Models(MLLMs) have achieved promising OCRfree Document Understanding performance by increasing the supported resolution of document images.」から始まる論文で、High-resolution DocCompressorモジュールによって処理を簡略化・高速化とのこと。最初の主張には同意できる部分とできない部分があるが、Document UnderstandingタスクにおいてMLLMが強力なのは確か。
  • リポジトリはGitHub – X-PLUG/mPLUG-DocOwl: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

Visual Agents as Fast and Slow Thinkers

  • Visual Agents as Fast and Slow Thinkers [88.7]
    本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。 FaSTは、システム1/2モードを動的に選択するためにスイッチアダプタを使用し、異なるタスクの複雑さに対する問題解決アプローチを調整している。 モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
    論文  参考訳(メタデータ)   (Fri, 16 Aug 2024 17:44:02 GMT)
  • かの有名なFast and SlowをMLLMエージェントに適用。「the concepts of System 1 (fast, intuitive) and System 2 (slow, deliberate) thinking into visual agents, aiming to enhance their reasoning and decision-making capabilities.」というコンセプト
  • 効果があったとするが公平な比較になっているんだろうかという疑問がなくはない。

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding 

  • When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.4]
    CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。 復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 11:36:18 GMT)
  • ビデオ符号化に対するMLLMの適用、マルチモーダル性を活用した手法であり興味深い。実用化にはハードルがありそうだが、可能性を感じる結果。