Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning
Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning [105.4] VIGA(Vision-as-Inverse-Graphic Agent)は、クローズドループの書き込み-ラン-レンダー-補完-修正手順によってシーンを再構築または編集する。 長距離推論をサポートするために、VIGAは(i)ジェネレータと検証ロールを交換するスキルライブラリと(ii)進化するコンテキストメモリを組み合わせた。 論文参考訳(メタデータ) (Fri, 16 Jan 2026 09:11:55 GMT)
反復的に改善(we present VIGA (Vision-as Inverse-Graphic Agent) that starts from an empty world and reconstructs or edits scenes through a closed-loop write→run→render→compare→revise procedure.)していくタイプの3D再構成手法。