2023年2月22日 – arXiv最新論文の紹介

ControlNet、MultiDiffusion

単純にテキストから画像を生成するのではなく、その構図等を制御可能な研究報告が出ていた。何ができているかはサンプルを見るのが早い。欲しい絵があった場合、その描き方が根底から変わりそうな…

Adding Conditional Control to Text-to-Image Diffusion Models [43.8]
本研究では,事前学習した大規模拡散モデルを制御するニューラルネットワーク構造であるControlNetを提案する。 ControlNetは、エンドツーエンドでタスク固有の条件を学習し、トレーニングデータセットが小さい場合でも、学習は堅牢である。
論文参考訳（メタデータ） (Fri, 10 Feb 2023 23:12:37 GMT)
リポジトリはGitHub – lllyasviel/ControlNet: Let us control diffusion models

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.6]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文参考訳（メタデータ） (Thu, 16 Feb 2023 06:28:29 GMT)
制御可能な（マスクごとにテキストを設定することなどが可能な）画像生成モデルの提案
リポジトリはMultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

Long Text and Multi-Table Summarization: Dataset and Method

Long Text and Multi-Table Summarization: Dataset and Method [20.9]
FINDSumは3,794社から21,125件の年次レポートに基づいて構築されている。それぞれの会社の運営成果と流動性を要約する2つのサブセットがある。生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。
論文参考訳（メタデータ） (Wed, 8 Feb 2023 00:46:55 GMT)
年次レポートからの要約データセット。長文と表データの取り扱いが必要な構成になっている。年次報告書の特性からして結構当たるんじゃないかなと思わなくもない気がしていて（著者もやっているが）データ自体の分析を行ってみたいところ。
リポジトリはGitHub – StevenLau6/FINDSum: A Large-Scale Dataset for Long Text and Multi-Table Summarization