Design2Code

  • Design2Code: How Far Are We From Automating Front-End Engineering? [83.1]
    マルチモーダルLLMがビジュアルデザインをコード実装に直接変換するタスクを Design2Code タスクとして形式化し,包括的なベンチマークを行う。 具体的には、テストケースとして、484の多様な現実世界のWebページのベンチマークを手動でキュレートする。 我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。 人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
    論文  参考訳(メタデータ)   (Tue, 5 Mar 2024 17:56:27 GMT)
  • WEBページの画像からコードを作れるかを検証した論文。GPT-4Vが最も性能が高いが、十分ではなさそう。既存のオープンソースモデルの性能はかなり悪い。論文中ではCogAgent – arXiv最新論文の紹介 (devneko.jp)をfine tuningしたDesign2Code-18Bを開発、公開している。
  • MistralベースのHuggingFaceM4/VLM_WebSight_finetuned · Hugging Faceがまずまずのスコアを出しており「WebSight VLM-8B performs better than Gemini direct prompting (54% win rate and 35% lose rate), suggesting that finetuning on a large amount of data can match commercial models in specific domains.」とされているのも興味深い。
  • リポジトリはDesign2Code: How Far Are We From Automating Front-End Engineering (salt-nlp.github.io)

The (R)Evolution of Multimodal Large Language Models: A Survey

  • The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
    MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。 本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
    論文  参考訳(メタデータ)   (Mon, 19 Feb 2024 19:01:01 GMT)
  • マルチモーダルなLLMのサーベイ
  • 本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い

MM-LLMs: Recent Advances in MultiModal Large Language Models

  • MM-LLMs: Recent Advances in MultiModal Large Language Models [51.5]
    過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。 MM-LLMのさらなる研究を促進するための総合的な調査を行う。
    論文  参考訳(メタデータ)   (Thu, 25 Jan 2024 03:46:15 GMT)
  • マルチモーダルLLMのサーベイ
  • SOTA-LLM、ベンチマーク結果表などとてもありがたい、一方ですぐ情報がアップデートされるのだろうなとも。。。
  • プロジェクトサイトはhttps://mm-llms.github.io/とのことだが現状404

SynCDR

  • SynCDR : Training Cross Domain Retrieval Models with Synthetic Data [90.5]
    クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。 本稿では、これらの欠落したカテゴリの例をドメイン間で補うために合成データを生成するための簡単な解を提案する。 我々は、この翻訳のために訓練された2つのドメインと、プロンプトを介して大規模に訓練されたテキストから画像への拡散モデルを使用するドメインを比較した。
    論文  参考訳(メタデータ)   (Sun, 31 Dec 2023 08:06:53 GMT)
  • クロスドメイン検索へのデータ合成の応用
  • リポジトリはsamarth4149/SynCDR: Code for SynCDR (github.com)

UniHuman

  • UniHuman: A Unified Model for Editing Human Images in the Wild [52.4]
    実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。 モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。 ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
    論文  参考訳(メタデータ)   (Fri, 22 Dec 2023 05:00:30 GMT)
  • 人間の画像を編集するためのモデルの提案、Adobeがかかわっており、「 we curated 400K high-quality image-text pairs for training and collected 2K human image pairs for out-of-domain testing.」はさすが。

ChartAssisstant

  • ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.9]
    ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。 タスク固有の微調整なしで、様々なチャートタスク間の競争性能を達成する。 その結果、OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り、最先端のUniChart法よりも大きな性能向上を示した。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 17:51:48 GMT)
  • こちらはチャートを扱える(Vision-Languageでチャートに特化した)マルチモーダルなLLM。特化しているからかGPT-4VやBardを大きく上回る性能。
  • リポジトリはhttps://github.com/OpenGVLab/ChartAstとのことだが現時点では404。データセットを作っているのも大きな貢献だと思うので公開されるのが楽しみ。

DocLLM

  • DocLLM: A layout-aware generative language model for multimodal document understanding [12.1]
    本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。 本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。 我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
    論文  参考訳(メタデータ)   (Sun, 31 Dec 2023 22:37:52 GMT)
  • bounding boxの情報を組み込んだLLM、画像への拡張よりも効率的とのこと。実装上有用なアプローチに思える。著者がJPMorgan AI Researchというのも興味深い。
  • 「DocLLM is a multi-modal system that integrates lightweight visual information by utilizing the spatial positions and dimensions of text tokens obtained using OCR.」ということでbounding boxはOCRから得るのが前提ではあるが、テキストやブロック構造が得られる電子ファイルが使える場合はさらによく動きそう(非現実的な仮定でもない)。

Q-Align

  • Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels [95.4]
    スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。 提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Thu, 28 Dec 2023 16:10:25 GMT)
  • 品質評価のためのLarge Multi-modality Model、Stage 1: Training Human Ratersから始まっているのが面白い。複数のvisual assessing taskにおいてSoTAを主張。
  • リポジトリはQ-Future/Q-Align: [IQA, IAA, VQA] All-in-one LMM/MLLM for visual scoring. (github.com)

Generative Multimodal Models are In-Context Learners 

  • Generative Multimodal Models are In-Context Learners [62.3]
    我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
    論文  参考訳(メタデータ)   (Wed, 20 Dec 2023 18:59:58 GMT)
  • マルチモーダルな生成モデルでテキスト生成モデルと同様にICLが有効なEMU2に関する論文
  • リポジトリはGitHub – baaivision/Emu: Emu Series: Generative Multimodal Models from BAAI

SESAME: SEe, SAy, segMEnt

  • See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.4]
    この課題を解決するために,LMMのカスケードと共同学習手法を提案する。 得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
    論文  参考訳(メタデータ)   (Wed, 13 Dec 2023 18:58:04 GMT)
  • 微妙に間違ったクエリに対応可能なMLLMの提案、テニスの写真に対して「バスケットボール選手を見つけてと指示」したとき「テニス選手ならいます」と答えて船首部分をセグメンテーションすることが可能。
  • 「detecting the presence of objects (”see”), advising users about non-existent objects or modifying queries accordingly (“say”), and precisely segmenting objects that are actually present in the image (“segment”)」でSESAMEらしい