ChartThinker

  • ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization [32.2]
    本研究は,各チャートに包括的チャートキャプチャペアと微調整命令の大規模データセットを構築した。 本稿では,思考の連鎖に基づいて深い分析を合成する,革新的なチャート要約手法であるChartThinkerを提案する。 キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、常に優れたパフォーマンスを示します。
    論文  参考訳(メタデータ)   (Sun, 17 Mar 2024 14:49:09 GMT)
  • チャート要約データセットChart-Sum-QAとチャート要約のモデルChartThinkerの提案。OCR併用の方が性能が高いのが気になるのと、GPT-4Vのような最新モデルを使った場合の結果が知りたいところ。
  • リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

WorldGPT

  • WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs [53.2]
    本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。 このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
    論文  参考訳(メタデータ)   (Sun, 10 Mar 2024 16:09:02 GMT)
  • Prompt Enhancer + Key Frame Generator + Video Generator での動画生成フレームワーク。「This innovative approach enables the generation of captivating videos that encapsulate rich and realistic world models.」とあるが本当なんだろうか。。。