SimVS: Simulating World Inconsistencies for Robust View Synthesis 

  • SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.8]
    本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。 我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
    論文  参考訳(メタデータ)   (Tue, 10 Dec 2024 17:35:12 GMT)
  • 「Our approach augments existing multiview datasets with inconsistencies simulated by a video diffusion model and trains a multiview harmonization model to sample sets of consistent views of a scene conditioned on sparse inconsistent captures. We can then use existing 3D reconstruction and view synthesis techniques to synthesize novel viewpoints from these consistent images.」とのこと。面白いデータ拡張のアプローチでプロジェクトサイトを見るに効果も高いよう。
  • プロジェクトサイトはSimVS: Simulating World Inconsistencies for Robust View Synthesis

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

  • CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [88.1]
    CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 CC-OCRは、OCR中心のタスクにおけるLMMの能力を総合的に評価し、LMMの進歩を促進することを目的としている。
    論文  参考訳(メタデータ)   (Tue, 03 Dec 2024 07:03:25 GMT)
  • MLLMのためのOCRベンチマーク、全般的にGemini Proの性能が高い
  • リポジトリはhttps://github.com/QwenLM/CC-OCR