OneLLM – arXiv最新論文の紹介

OneLLM: One Framework to Align All Modalities with Language [90.1]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。 OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文参考訳（メタデータ） (Wed, 6 Dec 2023 18:59:19 GMT)
マルチモーダルなLLMの提案、image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activityとあまり見ないモーダルにも対応。Universal Encoder → Universal Projection Module → LLMなアーキテクチャでEncoderはFrozenとのこと。様々なベンチマークで高い性能を発揮。
リポジトリはGitHub – csuhan/OneLLM: OneLLM: One Framework to Align All Modalities with Language

コメントを残す

コメントを残す コメントをキャンセル