LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation

  • LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [112.3]
    レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。 提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
    論文  参考訳(メタデータ)   (Wed, 9 Aug 2023 17:45:04 GMT)
  • LLMを通してテキストからレイアウト情報を推測し、画像生成する手法の提案。
  • プロジェクトサイトはLayoutLLM-T2I

PosterLayout

ビジネス文書を対象としたAI適用のサーベイ

  • Document AI: Benchmarks, Models and Applications [35.5]
    ドキュメントAI(Document AI)とは、ビジネス文書を自動的に読み、理解し、分析する技術である。 近年、ディープラーニング技術の人気は、Document AIの開発を大きく進めている。 本稿では,代表モデル,タスク,ベンチマークデータセットについて概説する。
    論文  参考訳(メタデータ)   (Tue, 16 Nov 2021 16:43:07 GMT)
    • ドキュメントを対象とした分析のサーベイ。レイアウト分析、情報抽出、Visual Question Answeringなど様々なタスクの概要とベンチマーク、モデル等を解説しており参考になる。できることは増えてきているので応用が進んでほしい。
    • サーベイ中、日本語のデータセットはGitHub – doc-analysis/XFUND: XFUND: A Multilingual Form Understanding Benchmarkのみ。ほとんど英語というのは残念。

レイアウト構造を利用した自然言語処理

  • Incorporating Visual Layout Structures for Scientific Text Classification [31.2]
    本研究では,VILA(Visual LAyout Structure)の新たな手法として,ページテキストをテキスト行やテキストブロックにグループ化する手法を言語モデルに導入する。 モデル入力にレイアウト構造の境界を示す特別なトークンを追加するI-VILAアプローチは、トークン分類タスクにおいて+14.5 F1のスコア改善をもたらす可能性があることを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 1 Jun 2021 17:59:00 GMT)
    • レイアウト情報は重要な情報源であり、うまく活用できた時の効果は大きいと思う。
    • データセットとコードはhttps://github.com/allenai/VILAで公開予定とのこと。