2024年3月26日 – arXiv最新論文の紹介

ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization [32.2]
本研究は,各チャートに包括的チャートキャプチャペアと微調整命令の大規模データセットを構築した。本稿では,思考の連鎖に基づいて深い分析を合成する,革新的なチャート要約手法であるChartThinkerを提案する。キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、常に優れたパフォーマンスを示します。
論文参考訳（メタデータ） (Sun, 17 Mar 2024 14:49:09 GMT)
チャート要約データセットChart-Sum-QAとチャート要約のモデルChartThinkerの提案。OCR併用の方が性能が高いのが気になるのと、GPT-4Vのような最新モデルを使った場合の結果が知りたいところ。
リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs [53.2]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文参考訳（メタデータ） (Sun, 10 Mar 2024 16:09:02 GMT)
Prompt Enhancer + Key Frame Generator + Video Generator での動画生成フレームワーク。「This innovative approach enables the generation of captivating videos that encapsulate rich and realistic world models.」とあるが本当なんだろうか。。。