コンテンツへスキップ
- What does a platypus look like? Generating customized prompts for zero-shot image classification [47.8]
本研究は,画像領域の明示的な知識を使わずに,高精度なプロンプトを生成する簡単な手法を提案する。 大規模言語モデル(LLM)に含まれる知識を活用し、各オブジェクトカテゴリにカスタマイズされた多くの記述文を生成する。 このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文 参考訳(メタデータ) (Wed, 7 Sep 2022 17:27:08 GMT)
- MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.3]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。 複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。 体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (Wed, 31 Aug 2022 17:58:54 GMT)- テキストで指示可能なモーション作成、Diffusionモデルを活用しているとのこと。(ややニッチかもだが)画像生成の次に流行ったりするのだろうか。
- Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6]
汎用多目的基礎モデルBEiT-3を紹介する。 視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (Mon, 22 Aug 2022 16:55:04 GMT)
- DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。 トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。 次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (Thu, 25 Aug 2022 17:45:49 GMT)- 少量のデータを用いて画像生成モデルに新たな画像(例えば自分のペットなど)を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
- プロジェクトサイトはDreamBooth
- Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.9]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。 このデータセットには,180時間以上のビデオと9000以上のスライドが,各科目から10人の講師が参加している。 マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (Wed, 17 Aug 2022 05:30:18 GMT)- 330本・180時間以上の動画、9000以上のスライドからなるデータセット。ライセンスはCC BY-SA-NC。text-to-figure(音声の説明から図を検索)、figure-to-text(図から音声の説明を検索)の検索タスクを前提として設計されているとのこと。既存手法、提案手法とも人間のパフォーマンスとのギャップが大きい。
- リポジトリはdondongwon/MLPDataset (github.com)
- ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
論文 参考訳(メタデータ) (Thu, 11 Aug 2022 03:44:02 GMT)
- Prompt Tuning for Generative Multimodal Pretrained Models [75.4]
我々は、理解タスクと生成タスクの両方に適応した統合シーケンス・ツー・シーケンス事前学習モデルに、即時チューニングを実装した。 実験結果から,軽量なプロンプトチューニングはファインタニングで同等の性能を発揮することが示された。 微調整モデルと比較して、プロンプト調整モデルでは敵攻撃に対する堅牢性が改善されている。
論文 参考訳(メタデータ) (Thu, 4 Aug 2022 08:56:38 GMT)
- FashionViL: Fashion-Focused Vision-and-Language Representation Learning [129.5]
ファッション中心の視覚・言語(V+L)表現学習フレームワークFashionViLを提案する。 特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。 大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。
論文 参考訳(メタデータ) (Sun, 17 Jul 2022 12:06:27 GMT)
- Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1]
さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。 新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。 Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (Sat, 16 Jul 2022 09:38:52 GMT)
- Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review [40.5]
Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。 VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
論文 参考訳(メタデータ) (Sat, 2 Jul 2022 09:31:37 GMT)- マルチモーダルな情報を利用する対話システムのサーベイ。