Harnessing Webpage UIs for Text-Rich Visual Understanding 

  • Harnessing Webpage UIs for Text-Rich Visual Understanding [112.0]
    テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。 これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。 我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 17:48:54 GMT)
  • 「We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts.」というデータセットの構築と、それらデータを用いたMLLMの構築。
  • プロジェクトサイトはMultiUI、リポジトリはGitHub – neulab/MultiUI: Code for Paper: Harnessing Webpage Uis For Text Rich Visual Understanding

ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition 

  • ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition [111.3]
    ActionAtlasは、様々なスポーツのショートビデオを含むビデオ質問応答ベンチマークである。 このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。 我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
    論文  参考訳(メタデータ)   (Tue, 08 Oct 2024 07:55:09 GMT)
  • 「The question pinpoints specific individuals, asking which choice “best” describes their action within a certain temporal context.」というデータセット。とても難しく見える。。。
  • プロジェクトサイトはActionAtlas (mrsalehi.github.io)

TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

  • TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration [33.9]
    視覚言語基礎モデル(CLIPなど)は、大規模な画像テキスト事前学習により、転送学習におけるその能力を示している。 本稿では,分離されたエージェントの知識を統一的に伝達する,汎用的で簡潔なTransAgentフレームワークを提案する。 われわれのTransAgentは、11の視覚的認識データセット上で最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 03:01:44 GMT)
  • エージェンティックなモデルの統合、「By adaptively integrating the external knowledge of agents from different modalities via MoA gating mechanism, TransAgent achieves state-of-the-art performance on 11 datasets under the low-shot scenarios.」とのこと。
  • リポジトリはGitHub – markywg/transagent: [NeurIPS 2024] TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

Jailbreaking LLM-Controlled Robots

  • Jailbreaking LLM-Controlled Robots [82.0]
    大規模言語モデル(LLM)は、文脈推論と直感的な人間とロボットの相互作用を可能にすることによって、ロボット工学の分野に革命をもたらした。 LLMは脱獄攻撃に弱いため、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを誘発する。 LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 15:55:36 GMT)
  • LLMが制御するロボットに対する脱獄攻撃、「(i) a white-box setting, wherein the attacker has full access to the NVIDIA Dolphins self-driving LLM, (ii) a gray-box setting, wherein the attacker has partial access to a Clearpath Robotics Jackal UGV robot equipped with a GPT-4o planner, and (iii) a black-box setting, wherein the attacker has only query access to the GPT-3.5-integrated Unitree Robotics Go2 robot dog. 」を設定、「In each scenario and across three new datasets of harmful robotic actions, we demonstrate that ROBOPAIR, as well as several static baselines, finds jailbreaks quickly and effectively, often achieving 100% attack success rates.」とのこと。。大きな脅威になりうる。
  • プロジェクトサイトはRoboPAIR

DocLayout-YOLO

Latent Action Pretraining from Videos

  • Latent Action Pretraining from Videos [156.9]
    一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。 本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
    論文  参考訳(メタデータ)   (Tue, 15 Oct 2024 16:28:09 GMT)
  • インターネットにあるようなビデオデータからVLAを構築する手法の提案、「Across three benchmarks spanning both simulation and real-world robot experiments, we show that our method significantly improves transfer to downstream tasks compared to existing approaches.」とのこと
  • プロジェクトサイトはLAPA

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

  • MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.2]
    MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。 その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 17:55:02 GMT)
  • マルチモーダルなRAGのベンチマーク、様々なモデルのスコア一覧表もとても参考になる。
  • リポジトリはMRAG-Bench (mragbench.github.io)

MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models 

  • MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.8]
    近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。 我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
    論文  参考訳(メタデータ)   (Wed, 16 Oct 2024 23:03:27 GMT)
  • 医療ドメイン、かつ、マルチモーダルなRAGシステムの提案。ドメインを判別してRetireverを使い分けるなど凝った構成。「These enhancements significantly boost the factual accuracy of Med-LVLMs.」とのことで、この手の工夫は重要。
  • リポジトリはGitHub – richard-peng-xia/MMed-RAG: [arXiv’24 & NeurIPSW’24] MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

Llama-3.1-Nemotron-70B, Ministral, Baichuan-Omni 

NVidiaから「This model reaches Arena Hard of 85.0, AlpacaEval 2 LC of 57.6 and GPT-4-Turbo MT-Bench of 8.98, which are known to be predictive of LMSys Chatbot Arena Elo As of 1 Oct 2024, this model is #1 on all three automatic alignment benchmarks (verified tab for AlpacaEval 2 LC), edging out strong frontier models such as GPT-4o and Claude 3.5 Sonnet.」を主張するnvidia/Llama-3.1-Nemotron-70B-Instruct-HF · Hugging Face、Mistralからは小規模だが高性能なMinistralが発表されている(Un Ministral, des Ministraux | Mistral AI | Frontier AI in your hands)。Baichuan-Omni はテキスト、画像、動画、音声に対応したマルチモーダルモデルでOSSで公開するとのこと。商用非公開モデルの大きなニュースリリースが予定されているようでそれも楽しみだが、weightが公開されるモデルが増えるのはありがたい。

1つ目はLlama-3.1-Nemotron-70B-Reward と HelpSteer2-Preference prompts を用いてLlama-3.1-70B-Instruct modelをチューニングしたものとのこと。NVIDIAは高効率なアーキテクチャの研究も進めているなど要注目。

2つ目、3つ目のような小規模高性能モデルも様々出ており、性能も検証してみたいところ。

  • HelpSteer2-Preference: Complementing Ratings with Preferences [45.0]
    リワードモデルは、指示に従うためにモデルを整列させるのに不可欠である。 データに適切にマッチする場合、どちらのアプローチも他方よりも優れているという証拠が不足している。 そこで我々はBradley-Terry styleとRegression reward Modelingを組み合わせた新しい手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 02 Oct 2024 06:05:52 GMT)
  • nGPT: Normalized Transformer with Representation Learning on the Hypersphere [23.7]
    我々は新しいニューラルネットワークアーキテクチャ、正規化トランスフォーマー(nGPT)を提案する。 nGPTはより高速に学習し、同じ精度を達成するために必要なトレーニングステップの数を4から20に削減する。
    論文  参考訳(メタデータ)   (Tue, 01 Oct 2024 23:50:09 GMT)

Agent-as-a-Judge: Evaluate Agents with Agents

  • Agent-as-a-Judge: Evaluate Agents with Agents [61.3]
    本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。 これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
    論文  参考訳(メタデータ)   (Mon, 14 Oct 2024 17:57:02 GMT)
  • LLM-as-a-Judgeならぬ、Agent-as-a-Judge。確かに有効なのだろうと思う。「We benchmark three of the popular agentic systems using Agent-as-a-Judge and find it dramatically outperforms LLM-as-a-Judge and is as reliable as our human evaluation baseline.」とのこと。
  • データセットがDEVAI-benchmark (DEVAI-benchmark)で公開されている。