コンテンツへスキップ
- MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [105.4]
MLLM(Performant Multimodal Large Language Models)を構築する。 特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。 本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (Thu, 14 Mar 2024 17:51:32 GMT)
- AppleのMultimodal Large Language Model。Appleがこの手の成果を公表するのは珍しい気がする。
- apple/axlearn (github.com)を使っているとのこと。
- The (R)Evolution of Multimodal Large Language Models: A Survey [48.6]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。 本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (Mon, 19 Feb 2024 19:01:01 GMT)
- マルチモーダルなLLMのサーベイ
- 本当にいっぱいあるなーという印象と、公開されているものが多いのも興味深い
- MM-LLMs: Recent Advances in MultiModal Large Language Models [51.5]
過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。 MM-LLMのさらなる研究を促進するための総合的な調査を行う。
論文 参考訳(メタデータ) (Thu, 25 Jan 2024 03:46:15 GMT)
- マルチモーダルLLMのサーベイ
- SOTA-LLM、ベンチマーク結果表などとてもありがたい、一方ですぐ情報がアップデートされるのだろうなとも。。。
- プロジェクトサイトはhttps://mm-llms.github.io/とのことだが現状404
- SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.2]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。 我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (Mon, 11 Dec 2023 17:54:11 GMT)
- テキストの命令による画像編集。対象を理解したうえで編集し、画像も綺麗で違和感が少ない。
- プロジェクトサイトはSmartEdit (yuzhou914.github.io)、リポジトリはGitHub – TencentARC/SmartEdit、デモは準備中のよう
- OneLLM: One Framework to Align All Modalities with Language [90.1]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。 OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (Wed, 6 Dec 2023 18:59:19 GMT)
- マルチモーダルなLLMの提案、image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activityとあまり見ないモーダルにも対応。Universal Encoder → Universal Projection Module → LLMなアーキテクチャでEncoderはFrozenとのこと。様々なベンチマークで高い性能を発揮。
- リポジトリはGitHub – csuhan/OneLLM: OneLLM: One Framework to Align All Modalities with Language