Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity

  • Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity [14.9]
    このデータセットには136万の画像が含まれており、既存のデータセットの規模を桁違いに越えている。 このデータセットは、鳥類(Aves)、クモ/ティックス/ミツ(Arachnida)、昆虫(usha)、植物(Plantae)、菌類/ムルーム(Fungi)、カタツムリ(Mollusca)、ヘビ/昆虫(Reptilia)から様々な種の画像言語対のデータを含む。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 17:09:54 GMT)
  • 「the largest publicly accessible dataset designed to advance AI for biodiversity applications.」を主張するデータセット。AI fot biodiversityという目的が面白い。
  • リポジトリはArboretum (baskargroup.github.io)

A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models

  • A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.8]
    画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。 この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
    論文  参考訳(メタデータ)   (Thu, 20 Jun 2024 17:58:52 GMT)
  • 画像編集に関するサーベイ、引用数が300を超える包括的内容、GitHub – xinchengshuai/Awesome-Image-Editingとリポジトリも公開されている。

MuirBench

  • MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3]
    マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 17:59:52 GMT)
  • マルチイメージ理解のためのデータセット。実用上は割とよくありそうな状況だが、「Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MUIRBENCH, achieving 68.0% and 49.3% in accuracy.」と説くのが難しいよう。
  • リポジトリはMUIRBENCH/MUIRBENCH · Datasets at Hugging Face

A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges

  • A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges [35.9]
    マルチモーダル機械翻訳は学術と産業の両方に大きな関心を集めている。 テキストと視覚の両方を入力として取り、視覚的コンテキストを活用して、ソーステキストの曖昧さに対処する。
    論文  参考訳(メタデータ)   (Tue, 21 May 2024 10:34:47 GMT)
  • マルチモーダルな機械翻訳に関するサーベイ。研究が続いてきた分野ではあるがMLLMの影響を大きく受けそうな雰囲気(サーベイにも言及はある)

Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

  • Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation [16.3]
    マルチモーダルなセマンティックセグメンテーションのためのSiamese MambaネットワークであるSigmaを紹介する。 シームズエンコーダを用いて,マンバ核融合機構を革新することにより,様々なモーダルから本質的な情報を効果的に選択する。 本手法はRGB-ThermalとRGB-Depthのセグメンテーションタスクにおいて厳密に評価される。
    論文  参考訳(メタデータ)   (Fri, 05 Apr 2024 17:59:44 GMT)
  • MambaベースのMulti-modal semantic segmentationモデルの提案。画像分野の応用も有望なんだろうか。
  • リポジトリはzifuwan/Sigma: Python implementation of Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation (github.com)

m3P: Multimodal Multilingual neural Machine Translation

  • m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.3]
    マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。 本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。 実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
    論文  参考訳(メタデータ)   (Tue, 26 Mar 2024 10:04:24 GMT)
  • 「we introduce visual context as the universal language-independent representation to facilitate multilingual translation.」が実現できそうであることが感慨深い。結果からも一定程度の効果が出ていそう。
  • データセットが公開されているのも凄い CSJianYang/InstrMulti102 · Datasets at Hugging Face

CoIN: Continual Instruction tuNing

  • CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [128.5]
    逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。 CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。 従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
    論文  参考訳(メタデータ)   (Wed, 13 Mar 2024 08:54:31 GMT)
  • マルチモーダルな大規模言語モデルに対する継続的な命令チューニングのベンチマークデータ
  • リポジトリはzackschen/CoIN: Instruction Tuning in Continual Learning paradigm (github.com)

TIVE: Task-level and Instance-level Value Estimation

  • Less is More: Data Value Estimation for Visual Instruction Tuning [127.4]
    視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。 LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 16:47:25 GMT)
  • visual instruction datasetには不要・冗長なデータが多く含まれており、その重要性を評価して削減する手法を提案。「using only about 7.5% data can achieve comparable performance as the full-data fine-tuned model across seven benchmarks, even surpassing it on four of the benchmarks.」とのことで、非常に効果的に見える。
  • 「Our code and data will be publicly released.」らしい

Large Multimodal Agents: A Survey

  • Large Multimodal Agents: A Survey [78.8]
    大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。 本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
    論文  参考訳(メタデータ)   (Fri, 23 Feb 2024 06:04:23 GMT)
  • 研究が流行っているLLM&マルチモーダル&エージェントのサーベイ
  • リポジトリも参考になる jun0wanan/awesome-large-multimodal-agents (github.com)

Design2Code

  • Design2Code: How Far Are We From Automating Front-End Engineering? [83.1]
    マルチモーダルLLMがビジュアルデザインをコード実装に直接変換するタスクを Design2Code タスクとして形式化し,包括的なベンチマークを行う。 具体的には、テストケースとして、484の多様な現実世界のWebページのベンチマークを手動でキュレートする。 我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。 人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
    論文  参考訳(メタデータ)   (Tue, 5 Mar 2024 17:56:27 GMT)
  • WEBページの画像からコードを作れるかを検証した論文。GPT-4Vが最も性能が高いが、十分ではなさそう。既存のオープンソースモデルの性能はかなり悪い。論文中ではCogAgent – arXiv最新論文の紹介 (devneko.jp)をfine tuningしたDesign2Code-18Bを開発、公開している。
  • MistralベースのHuggingFaceM4/VLM_WebSight_finetuned · Hugging Faceがまずまずのスコアを出しており「WebSight VLM-8B performs better than Gemini direct prompting (54% win rate and 35% lose rate), suggesting that finetuning on a large amount of data can match commercial models in specific domains.」とされているのも興味深い。
  • リポジトリはDesign2Code: How Far Are We From Automating Front-End Engineering (salt-nlp.github.io)