LLMs Meet Multimodal Generation and Editing: A Survey

  • LLMs Meet Multimodal Generation and Editing: A Survey [89.8]
    本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成について詳しく検討する。 具体的には,本研究で活用されている手法とマルチモーダルデータセットの背景にある重要な技術要素を網羅的に検討する。 最後に、AIの安全性の進歩について包括的に議論し、新興のアプリケーションと今後の展望について調査する。
    論文  参考訳(メタデータ)   (Wed, 29 May 2024 17:59:20 GMT)
  • 実用レベルのものが出ているマルチモーダルな生成に関するサーベイ。マルチモーダルエージェントまで含む広範な内容になっている。
  • 論文リストはリポジトリになっている GitHub – YingqingHe/Awesome-LLMs-meet-Multimodal-Generation: 🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

Tool-Planner

  • Tool-Planner: Dynamic Solution Tree Planning for Large Language Model with Tool Clustering [30.3]
    ツールキットに基づくタスク処理フレームワークであるTool-Plannerを提案する。 Tool-Plannerは同じ関数を持つAPI関数をツールキットにグループ化する。 ツールエラーが発生した場合、言語モデルはツールキットに基づいてツールを再選択し、調整することができる。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 07:30:14 GMT)
  • Agenticな動作で重要なツール選定を行わせるためのフレームワークの提案。ツールをクラスタリングして扱うことが有効というのは本当かと思いつつ、似たようなAPIが乱立している状況だとそうなるのかなと思わなくはない。
  • リポジトリはhttps://github.com/OceannTwT/Tool-Plannerとのことだが現時点では404