PresentAgent: Multimodal Agent for Presentation Video Generation

  • PresentAgent: Multimodal Agent for Presentation Video Generation [30.3]
    長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。 この統合を実現するために、PresentAgentでは、インプットドキュメントのセグメント化、計画、スライドスタイルのビジュアルフレームのレンダリングを行うモジュールパイプラインを採用している。 このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,ビジョンランゲージモデルを用いた統合評価フレームワークであるPresentEvalを紹介する。
    論文  参考訳(メタデータ)   (Sat, 05 Jul 2025 13:24:15 GMT)
  • プレゼンテーションビデオを作成するエージェント
  • リポジトリはGitHub – AIGeeksGroup/PresentAgent: PresentAgent: Multimodal Agent for Presentation Video Generation

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です