コンテンツへスキップ
- WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.6]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。 画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。 具体的には、画像とキャプションの相関が弱い複数のWebページから約6億のデータを収集し、他の5000万の強い関連画像テキストペアを高品質なグラフィックWebサイトから収集する。 また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 22 Mar 2022 06:12:20 GMT)
- Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.7]
近年のテキスト・ツー・イメージ生成手法は生成した画像の忠実度とテキスト関連性を漸進的に改善しているが、いくつかの重要なギャップは未解決のままである。 これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。 (i)シーン形式でテキストを補完する簡単な制御機構を可能にすること。 (ii)主要画像領域(顔及び突出物)にドメイン固有の知識を取り入れて、トークン化プロセスを大幅に改善する要素を導入すること。 (iii)変圧器の用途に分類器フリーのガイダンスを適用すること。 本モデルでは,512×512ピクセルの解像度で高忠実度画像を生成する能力を解放し,視覚的品質を著しく向上する。
論文 参考訳(メタデータ) (Thu, 24 Mar 2022 15:44:50 GMT)
- Towards Abstractive Grounded Summarization of Podcast Transcripts [33.3]
ポッドキャストの書き起こしの要約は、コンテンツ提供者と消費者の両方にとって実用的な利益である。 これは、コンシューマーがポッドキャストを聴くかどうかを素早く判断し、要約を書くためのコンテンツプロバイダの負荷を減らすのに役立つ。 しかし、ポッドキャストの要約は、入力に関する事実上の矛盾を含む重大な課題に直面している。
論文 参考訳(メタデータ) (Tue, 22 Mar 2022 02:44:39 GMT)
- XTREME-S: Evaluating Cross-lingual Speech Representations [75.4]
XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。 本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 21 Mar 2022 06:50:21 GMT)