- LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [112.3]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。 提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
論文 参考訳(メタデータ) (Wed, 9 Aug 2023 17:45:04 GMT) - LLMを通してテキストからレイアウト情報を推測し、画像生成する手法の提案。
- プロジェクトサイトはLayoutLLM-T2I
タグ: レイアウト
PosterLayout
- PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout [62.1]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。 本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。 CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (Tue, 28 Mar 2023 12:48:36 GMT) - ポスターのレイアウトを扱うベンチマーク。画像生成が現実的になっている中、センスが問われるこの手のレイアウトは良い問題なのかもしれない。
- リポジトリはGitHub – PKU-ICST-MIPL/PosterLayout-CVPR2023: Official repository for “PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout” (CVPR 2023).
ビジネス文書を対象としたAI適用のサーベイ
- Document AI: Benchmarks, Models and Applications [35.5]
ドキュメントAI(Document AI)とは、ビジネス文書を自動的に読み、理解し、分析する技術である。 近年、ディープラーニング技術の人気は、Document AIの開発を大きく進めている。 本稿では,代表モデル,タスク,ベンチマークデータセットについて概説する。
論文 参考訳(メタデータ) (Tue, 16 Nov 2021 16:43:07 GMT)- ドキュメントを対象とした分析のサーベイ。レイアウト分析、情報抽出、Visual Question Answeringなど様々なタスクの概要とベンチマーク、モデル等を解説しており参考になる。できることは増えてきているので応用が進んでほしい。
- サーベイ中、日本語のデータセットはGitHub – doc-analysis/XFUND: XFUND: A Multilingual Form Understanding Benchmarkのみ。ほとんど英語というのは残念。
レイアウト構造を利用した自然言語処理
- Incorporating Visual Layout Structures for Scientific Text Classification [31.2]
本研究では,VILA(Visual LAyout Structure)の新たな手法として,ページテキストをテキスト行やテキストブロックにグループ化する手法を言語モデルに導入する。 モデル入力にレイアウト構造の境界を示す特別なトークンを追加するI-VILAアプローチは、トークン分類タスクにおいて+14.5 F1のスコア改善をもたらす可能性があることを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 1 Jun 2021 17:59:00 GMT)- レイアウト情報は重要な情報源であり、うまく活用できた時の効果は大きいと思う。
- データセットとコードはhttps://github.com/allenai/VILAで公開予定とのこと。