コンテンツへスキップ
- FashionViL: Fashion-Focused Vision-and-Language Representation Learning [129.5]
ファッション中心の視覚・言語(V+L)表現学習フレームワークFashionViLを提案する。 特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。 大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。
論文 参考訳(メタデータ) (Sun, 17 Jul 2022 12:06:27 GMT)
- Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1]
さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。 新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。 Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (Sat, 16 Jul 2022 09:38:52 GMT)
- Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review [40.5]
Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。 VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
論文 参考訳(メタデータ) (Sat, 2 Jul 2022 09:31:37 GMT)- マルチモーダルな情報を利用する対話システムのサーベイ。
- Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.1]
Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。 我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。 Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 17 Jun 2022 17:53:47 GMT)
- Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (Wed, 22 Jun 2022 01:11:29 GMT)- DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
- GLIPv2: Unifying Localization and Vision-Language Understanding [161.2]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。 GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。 一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (Sun, 12 Jun 2022 20:31:28 GMT)
- Language Models are General-Purpose Interfaces [109.5]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。 事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (Mon, 13 Jun 2022 17:34:22 GMT)
- CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers [16.3]
大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。 CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。 CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
論文 参考訳(メタデータ) (Sun, 29 May 2022 19:02:15 GMT)
- Text2Human: Text-Driven Controllable Human Image Generation [98.3]
既存の生成モデルは、しばしば衣服の形やテクスチャの多様性の高さの下で不足する。 テキスト駆動制御可能なフレームワークであるText2Humanを,高品質で多種多様なヒューマン世代向けに提案する。
論文 参考訳(メタデータ) (Tue, 31 May 2022 17:57:06 GMT)
- DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation [72.2]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。 このデータセットには、covid-19パンデミック、black lives matter運動、veganism/vegetarianismの3つのトピックをカバーするredditのミームが含まれている。
論文 参考訳(メタデータ) (Wed, 25 May 2022 09:54:59 GMT)- redditからとられたマルチモーダルな偽情報ミーム検出用データセット。ユニモーダルなモデルとマルチモーダルなモデルを比較しているがマルチモーダルの効果がそれほど出ていないよう。
- データは公開予定とのこと。