DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding 

  • DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding [128.9]
    大規模マルチモーダルモデル(LMM)を活用してエンドツーエンドの文書編集を行う新しいフレームワークDocEdit-v2を紹介する。 1) Doc2Commandは、興味のある編集領域(RoI)を同時にローカライズし、ユーザの編集要求を編集コマンドに曖昧にする; (2) LLMベースのコマンド改革により、元々はジェネラリストのLMMに適した編集命令に、特別なソフトウェア用に意図されたコマンドを調整して編集する; 3) DocEdit-v2は、GPT-4VやGeminiのような大規模マルチモーダルモデルを介してこれらの出力を処理し、文書レイアウトを解析し、編集を実行する。
    論文  参考訳(メタデータ)   (Mon, 21 Oct 2024 19:59:04 GMT)
  • MLLMを用いて文書をE2Eで編集する手法の提案。HTMLを修正する編集用コマンドを介するアプローチ。「(a) multimodal grounding and edit command generation via the Doc2Command, (b) Command Reformulation prompting to transform the edit command into LMM-specific prompt instruction, (c) prompting LMMs like GPT-4V and Gemini to facilitate nuanced and localized editing of the document’s HTML representation.」というフロー。(E2E・・・?)

WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines