コンテンツへスキップ
- MM-LLMs: Recent Advances in MultiModal Large Language Models [51.5]
過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。 MM-LLMのさらなる研究を促進するための総合的な調査を行う。
論文 参考訳(メタデータ) (Thu, 25 Jan 2024 03:46:15 GMT)
- マルチモーダルLLMのサーベイ
- SOTA-LLM、ベンチマーク結果表などとてもありがたい、一方ですぐ情報がアップデートされるのだろうなとも。。。
- プロジェクトサイトはhttps://mm-llms.github.io/とのことだが現状404
- SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.2]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。 我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (Mon, 11 Dec 2023 17:54:11 GMT)
- テキストの命令による画像編集。対象を理解したうえで編集し、画像も綺麗で違和感が少ない。
- プロジェクトサイトはSmartEdit (yuzhou914.github.io)、リポジトリはGitHub – TencentARC/SmartEdit、デモは準備中のよう
- OneLLM: One Framework to Align All Modalities with Language [90.1]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。 OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (Wed, 6 Dec 2023 18:59:19 GMT)
- マルチモーダルなLLMの提案、image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activityとあまり見ないモーダルにも対応。Universal Encoder → Universal Projection Module → LLMなアーキテクチャでEncoderはFrozenとのこと。様々なベンチマークで高い性能を発揮。
- リポジトリはGitHub – csuhan/OneLLM: OneLLM: One Framework to Align All Modalities with Language