- PresentAgent: Multimodal Agent for Presentation Video Generation [30.3]
長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。 この統合を実現するために、PresentAgentでは、インプットドキュメントのセグメント化、計画、スライドスタイルのビジュアルフレームのレンダリングを行うモジュールパイプラインを採用している。 このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,ビジョンランゲージモデルを用いた統合評価フレームワークであるPresentEvalを紹介する。
論文 参考訳(メタデータ) (Sat, 05 Jul 2025 13:24:15 GMT) - プレゼンテーションビデオを作成するエージェント
- リポジトリはGitHub – AIGeeksGroup/PresentAgent: PresentAgent: Multimodal Agent for Presentation Video Generation