PresentAgent: Multimodal Agent for Presentation Video Generation

PresentAgent: Multimodal Agent for Presentation Video Generation [30.3]
長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。この統合を実現するために、PresentAgentでは、インプットドキュメントのセグメント化、計画、スライドスタイルのビジュアルフレームのレンダリングを行うモジュールパイプラインを採用している。このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,ビジョンランゲージモデルを用いた統合評価フレームワークであるPresentEvalを紹介する。
論文参考訳（メタデータ） (Sat, 05 Jul 2025 13:24:15 GMT)
プレゼンテーションビデオを作成するエージェント
リポジトリはGitHub – AIGeeksGroup/PresentAgent: PresentAgent: Multimodal Agent for Presentation Video Generation

コメントを残す

コメントを残す コメントをキャンセル