- Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [82.2]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。 具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。 視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文 参考訳(メタデータ) (Sun, 29 Oct 2023 16:49:45 GMT) - たまに思う略称が厳しい感じの報告、multi-modal model by applying vision experts for industrial anomaly detectionとのこと…
- 成果は「Experiments show that our proposed Myriad not only achieves superior performance than both vision experts and state-of-the-art methods, but also provide detailed description for industrial anomaly detection.」で異常検知時に説明が出るのは重要。
- リポジトリはGitHub – tzjtatata/Myriad: Open-sourced codes, IAD vision-language datasets and pre-trained checkpoints for Myriad.
タグ: マルチモーダル
MathVista
- MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.0]
大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。 MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。 MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
論文 参考訳(メタデータ) (Tue, 3 Oct 2023 17:57:24 GMT) - 視覚情報を含む数学的推論能力のベンチマーク。FQA:figure question answering、GPS: geometry problem solving、MWP:math word problem、TQA: textbook question answering、VQA: visual question answeringで構成される。
- 現時点ではMultimodal Bardが最も高いスコアを達成とのこと(GPT-4Vとも一定程度比較は行っているようだが今後のアップデートに期待)いずれにしろ人間から比べるとだいぶ低いスコアで改善の余地は大きい。
- どうでもよいがLarge Language Models (LLMs) とLarge Multimodal Models (LMMs) がややこしい
- リポジトリはMathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Context
GPT-4V, LLaVA-1.5
GPT-4Vの登場でマルチモーダルモデルの活用が一気に進む感がある。さらにオープンな取り組みも進んでおり期待が大きい。
- The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.4]
大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデルを拡張する。 本稿では,GPT-4Vの能力の質と汎用性を調査するテストサンプルを含む,GPT-4Vが実行可能な興味深いタスクに焦点を当てた。 GPT-4Vの任意のインターリーブされたマルチモーダル入力処理における前例のない能力と、その能力の汎用性は、GPT-4Vを強力なマルチモーダルジェネラリストシステムにする。
論文 参考訳(メタデータ) (Fri, 29 Sep 2023 17:34:51 GMT) - GPT-4V(ision)のMSのよる評価。Visionの統合は自然な拡張であり、今までも研究され続けてきた分野ではあるが、GPT-4Vは強力なレベルになっているように見える。
- Improved Baselines with Visual Instruction Tuning [79.3]
LLaVAの完全接続型ビジョン指向クロスモーダルコネクタは驚くほど強力で,データ効率がよいことを示す。 11のベンチマークで最先端を達成するための、より強力なベースラインを確立します。 最後の13Bチェックポイントは1.2万の公開データのみを使用し、単一の8-A100ノードで1日でフルトレーニングを終えます。
論文 参考訳(メタデータ) (Thu, 5 Oct 2023 17:59:56 GMT) - OSSのマルチモーダルモデル、LLaVA-1.5の論文。多くのベンチマークでSoTAを主張。
- プロジェクトサイト、デモはLLaVA (llava-vl.github.io)、リポジトリはGitHub – haotian-liu/LLaVA: Visual Instruction Tuning: Large Language-and-Vision Assistant built towards multimodal GPT-4 level capabilities.
LLaVA-RLHF
- Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。 テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。 本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。 提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文 参考訳(メタデータ) (Mon, 25 Sep 2023 20:59:33 GMT) - マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V(GPT-4V(ision) system card (openai.com))と比較してみたところ。
- リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face( Apache License 2.0)など。
Kosmos-2.5
- Kosmos-2.5: A Multimodal Literate Model [143.5]
Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。 テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
論文 参考訳(メタデータ) (Wed, 20 Sep 2023 15:50:08 GMT) - Kosmosの新バージョン。コア部分はencoder-only/encoder-decoder model から decoder-only modelへ移行しており生成系AIのようなアーキテクチャになっている。商用製品を上回る性能とのこと。
- プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)
LLASM: Large Language and Speech Model
- LLaSM: Large Language and Speech Model [11.9]
大言語・音声モデル(Large Language and Speech Model, LLaSM)は、多モーダル言語モデルである。 初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。
論文 参考訳(メタデータ) (Wed, 30 Aug 2023 10:12:39 GMT) - LLM+音声なマルチモーダルモデルの提案
- Whisper で分散表現に変換Modal Adaptorを通したものをテキストとともに扱う形式、ベースのLLMは Chinese-LLAMA2-7Bとのこと。fine tuning用データはtext-to-speech APIで作成。性能評価が無いような気がするが、この方針でうまくいくのだろうか・・・?
- リポジトリはGitHub – LinkSoul-AI/LLaSM: 第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。、HuggingFaceはLinkSoul/LLaSM-Cllama2 · Hugging Face
MM-Vet
- MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [121.5]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。 近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (Fri, 4 Aug 2023 17:59:47 GMT) - VLなLLMを前提としたマルチモーダルベンチマーク。画像に対する単純な質問というわけではなく複数の能力(例えば画像にある数字を読み取ったうえで計算しないといけない等)が必要なデータセットになっていてより困難。
- リポジトリはGitHub – yuweihao/MM-Vet: MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions
- Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。 既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。 本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
論文 参考訳(メタデータ) (Thu, 10 Aug 2023 07:02:13 GMT) - 包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI(controllable knowledge re-injection)フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
- リポジトリはGitHub – DCDmllm/Cheetah
UnIVAL
- Unified Model for Image, Video, Audio and Language Tasks [94.8]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。 本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。 統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (Sun, 30 Jul 2023 09:48:36 GMT) - Image、Video、Audio、Languageとマルチモーダルなモデルの提案、「 0.25B parameter model achieves competitive performance to existing modality-customized work」とのことで小規模だが強力そう
- リポジトリはGitHub – mshukor/UnIVAL: Official implementation of UnIVAL: Unified Model for Image, Video, Audio and Language Tasks.
Dynalang
- Learning to Model the World with Language [98.2]
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。 アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
論文 参考訳(メタデータ) (Mon, 31 Jul 2023 17:57:49 GMT) - エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
- プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)