- PresentAgent: Multimodal Agent for Presentation Video Generation [30.3]
長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。 この統合を実現するために、PresentAgentでは、インプットドキュメントのセグメント化、計画、スライドスタイルのビジュアルフレームのレンダリングを行うモジュールパイプラインを採用している。 このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,ビジョンランゲージモデルを用いた統合評価フレームワークであるPresentEvalを紹介する。
論文 参考訳(メタデータ) (Sat, 05 Jul 2025 13:24:15 GMT) - プレゼンテーションビデオを作成するエージェント
- リポジトリはGitHub – AIGeeksGroup/PresentAgent: PresentAgent: Multimodal Agent for Presentation Video Generation
タグ: Presentation
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
- Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers [11.2]
ポストジェネレーションは科学コミュニケーションにおいて不可欠だが難しい課題である。 ポスター生成のための最初のベンチマークとメトリクススイートを紹介する。 PosterAgentはトップダウンのビジュアルインザループマルチエージェントパイプラインである。
論文 参考訳(メタデータ) (Tue, 27 May 2025 17:58:49 GMT) - ポスター生成の研究
- リポジトリはPaper2Poster
下記も近い研究成果、かつては非常に難しいと思われていたタスクがかなりできそうになっている。
- P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark [27.6]
高品質なHTMLレンダリングの学術ポスターを生成するLLMベースのマルチエージェントフレームワークであるP2Pを紹介する。 P2Pは、ビジュアル要素処理、コンテンツ生成、および専用のチェッカーモジュールと統合された最後のポスターアセンブリーの3つの特殊エージェントを使用している。 P2PEvalは121枚の紙とポストのペアと2つの評価手法を組み合わせた総合的なベンチマークである。
論文 参考訳(メタデータ) (Wed, 21 May 2025 09:06:05 GMT) - リポジトリはGitHub – multimodal-art-projection/P2P: P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
- PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [53.2]
プレゼンテーションを自動生成する2段階の編集手法を提案する。 PPTAgentはまずプレゼンテーションを分析して,その構造パターンやコンテントスキーマを理解します。 実験の結果,PPTAgentは従来の3次元のプレゼンテーション生成方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (Tue, 07 Jan 2025 16:53:01 GMT) - プレゼンテーションの自動作成。PPTとPDFを入力、ステージ1でリファレンスとなるPPTを解析、ステージ2でアウトライン生成→スライド生成を行う2段階のアプローチ。「To address the limitations of existing automated metrics for presentation evaluation, we introduce PPT Eval, a comprehensive framework for assessing presentation quality from multiple perspectives.」と評価機構も構築(内部的にはGPT-4oを利用)
- リポジトリはGitHub – icip-cas/PPTAgent