LLMs Meet Multimodal Generation and Editing: A Survey

  • LLMs Meet Multimodal Generation and Editing: A Survey [89.8]
    本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成について詳しく検討する。 具体的には,本研究で活用されている手法とマルチモーダルデータセットの背景にある重要な技術要素を網羅的に検討する。 最後に、AIの安全性の進歩について包括的に議論し、新興のアプリケーションと今後の展望について調査する。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 17:59:20 GMT)
  • 実用レベルのものが出ているマルチモーダルな生成に関するサーベイ。マルチモーダルエージェントまで含む広範な内容になっている。
  • 論文リストはリポジトリになっている GitHub – YingqingHe/Awesome-LLMs-meet-Multimodal-Generation: 🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です