Harnessing Webpage UIs for Text-Rich Visual Understanding 

  • Harnessing Webpage UIs for Text-Rich Visual Understanding [112.0]
    テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。 これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。 我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 17:48:54 GMT)
  • 「We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts.」というデータセットの構築と、それらデータを用いたMLLMの構築。
  • プロジェクトサイトはMultiUI、リポジトリはGitHub – neulab/MultiUI: Code for Paper: Harnessing Webpage Uis For Text Rich Visual Understanding

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です