OneLLM

  • OneLLM: One Framework to Align All Modalities with Language [90.1]
    統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。 OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 18:59:19 GMT)
  • マルチモーダルなLLMの提案、image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activityとあまり見ないモーダルにも対応。Universal Encoder → Universal Projection Module → LLMなアーキテクチャでEncoderはFrozenとのこと。様々なベンチマークで高い性能を発揮。
  • リポジトリはGitHub – csuhan/OneLLM: OneLLM: One Framework to Align All Modalities with Language

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です