MLLMを用いて文書をE2Eで編集する手法の提案。HTMLを修正する編集用コマンドを介するアプローチ。「(a) multimodal grounding and edit command generation via the Doc2Command, (b) Command Reformulation prompting to transform the edit command into LMM-specific prompt instruction, (c) prompting LMMs like GPT-4V and Gemini to facilitate nuanced and localized editing of the document’s HTML representation.」というフロー。(E2E・・・?)