- A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering [47.1]
画像をプレーンテキストに変換するOK-VQAタスクのパラダイムシフトを求める。 Transform-Retrieve-Generate(TR iG)フレームワークが提案されている。 実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 14 Jan 2022 04:12:46 GMT)- Outside-Knowledge Visual Question Answeringは回答には不十分な(外部知識活用を必要とする)画像+質問に回答するタスク。「消火栓の写真+これを使う車の名前は?」に対して「消防車」と答えるような内容。
- Transform-Retrieve-Generate framework (TRiG)によってOK-VQA (allenai.org)でSoTAを報告。
タグ: マルチモーダル
Data2vec: speech、vision、textで動作する自己教師有り学習
2vecの最終系かと思うData2vecが出ていた。Transformerをベースにタスク特有のエンコーディングを実施、objectiveは共通化されている状況でViT-B、wav2vec2/HuBERT、RoBERTaと競争的な性能とのこと。
論文はData2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (facebook.com)、リポジトリはfairseq/examples/data2vec at main · pytorch/fairseq · GitHub
LSeg: 言語駆動型のセマンティックセグメンテーション
- Language-driven Semantic Segmentation [88.2]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。 テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。 エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (Mon, 10 Jan 2022 18:59:10 GMT)- BackboneとなるVisionのモデル(ViT or ResNet)にCLIPを組み合わせることでゼロショットでの(ラベルを任意に設定可能な)セマンティックセグメンテーションを実現。マルチモーダルな処理に可能性と未来を感じる。
- リポジトリはGitHub – isl-org/lang-seg: Language-Driven Semantic Segmentation
RLD Dataset: 会話応答(表情)のビデオデータセット
- Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.2]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。 音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (Mon, 27 Dec 2021 07:18:50 GMT)- 67人の講演者、76人の聴取者が3つの異なる態度で集結した会話ビデオコーパス「Responsive Listener Dataset(RLD)」に関する論文。表情を含め合成するのは面白く(難しいと思われる)タスク。
- プロジェクトサイトはRLD Dataset (mhzhou.com)
MISE(Multimodal Image Synthesis and Editing)のサーベイ
- Multimodal Image Synthesis and Editing: A Survey [41.6]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。 明確な手がかりを提供する従来のビジュアルガイダンスとは異なり、マルチモーダルガイダンスは画像合成と編集において直感的で柔軟な手段を提供する。 本稿では、GAN(Generative Adversarial Networks)、GAN Inversion、Transformer、NeRFやDiffusionモデルなどを含む詳細なフレームワークを用いたマルチモーダル画像合成と編集手法について述べる。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 27 Dec 2021 10:00:16 GMT)- セマンティックマップやテキスト、音声などを手掛かりとしたマルチモーダルな画像生成、編集のサーベイ。タスク、有力手法、データセット、評価とこの分野を概観できる。
- サーベイ対象に12月発表のFugu-MT 論文翻訳(概要): CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields (fugumt.com)が入っているが、どのタイミングで編集したんだろう。。。
- プロジェクトサイトはGitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey [Preprint]
- セマンティックマップやテキスト、音声などを手掛かりとしたマルチモーダルな画像生成、編集のサーベイ。タスク、有力手法、データセット、評価とこの分野を概観できる。
MuMuQA(Multimedia Multi-Hop news Question Answering)
- MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.9]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。 具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。 本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 20 Dec 2021 18:23:30 GMT)- クロスメディア(画像、キャプション、ニュース本文)、マルチホップなQAデータセットの提案。人間が作成した評価用データは1384、自動生成された学習用(Silver Training Set)のデータを含むのが特徴的。Oscar-largeでも人間に比べて大幅に性能が悪い難しいデータセットになっている。
- リポジトリはGitHub – uiucnlp/MuMuQAだがcoming soon
ViT-BERT: 言語と画像の統一的基礎モデル
- Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text [93.1]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。 我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。 実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文 参考訳(メタデータ) (Tue, 14 Dec 2021 00:20:55 GMT)- 画像・言語の両方を取り扱える事前学習モデル構築手法の提案。トークン化と出力部分は個別だが主要な部分は共通という構造。学習に用いる画像とテキストは対となるデータではない。画像のみのタスクCIFAR-10/100・ImageNet、自然言語のみのタスクGLUE双方で優れた結果。
BOVText: ビデオ-テキストデータセットとend-to-endなモデル
- A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。 まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。 第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 9 Dec 2021 13:21:26 GMT)- 大規模なOpen World Video Textベンチマークデータセットの提案。
- リポジトリはGitHub – weijiawu/TransVTSpotter: A new video text spotting framework with Transformer
GLIP(Grounded Language-Image Pre-training): 言語-画像の事前学習モデル
- Grounded Language-Image Pre-training [107.7]
本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。 実験では、3Mの人間アノテーションと2400万のウェブクローリング画像テキストペアを含む2700万のグラウンドデータに対してGLIPを事前トレーニングした。 学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。
論文 参考訳(メタデータ) (Tue, 7 Dec 2021 17:47:50 GMT)- オブジェクト検出とフレーズ接地に対する事前学習モデルの提案。COCOとLVISにおいてゼロショットでも多くの教師有りベースラインを上回り、fine tuning後ではSoTAとのこと。prompt tuning等もできるらしく、コードとモデルも公開予定とのことで期待大。
- ただ、COCOはFlorence-CoSwin-Hの方が上に見える
- オブジェクト検出とフレーズ接地に対する事前学習モデルの提案。COCOとLVISにおいてゼロショットでも多くの教師有りベースラインを上回り、fine tuning後ではSoTAとのこと。prompt tuning等もできるらしく、コードとモデルも公開予定とのことで期待大。
FLAVA(Foundational Language And Vision Alignment): 言語と画像を結びつける基礎モデル
- FLAVA: A Foundational Language And Vision Alignment Model [63.2]
最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。 このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクにおいて、印象的なパフォーマンスを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 8 Dec 2021 18:59:16 GMT)- 公開データセットを用いて言語/画像の事前学習モデルを構築。類似モデルよりも少ないデータ量であるが優れたパフォーマンスを達成とのこと。