- WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.5]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。 そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 27 Oct 2021 12:25:21 GMT)- 極めて大規模な画像/テキストの事前学習モデル。CLIPとの比較が興味深く、性能はCLIPを超えるとのこと。
- 「Overall, we believe that pre-training a large-scale multimodal foundation model is indeed a potential approach to achieving AGI.」や「Overall, these findings indicate that pre-training a multimodal (visual and textual) foundation model can make a giant stride towards AGI.」などAGIを意識した記載が多くこれも面白い。この研究の先にAGIが見えているんだろうか?
- 個人的には可能性を感じていて興味津々
タグ: マルチモーダル
FooDI-ML: マルチリンガルな食品画像+説明のデータセット
- FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。 データセットにはスペイン語や英語など、広く話されている言語も含まれている。
論文 参考訳(メタデータ) (Tue, 5 Oct 2021 13:33:08 GMT)- 2.8M以上の食料品や飲料など画像と33言語の9.5M以上の説明文、店舗名、商品名、収集セクションを含むデータセット。ライセンスはCC BY-NC-SA。今後2倍以上のサイズのデータセット構築を予定しているとのこと。
- リポジトリはhttps://github.com/Glovo/foodi-ml-dataset
IMRec(IMpression-aware multi-modal news Recommendation framework):画像+テキストなニュースレコメンデーション
- Why Do We Click: Visual Impression-aware News Recommendation [108.7]
この作品は、ユーザーがニュースを閲覧する際に感じる視覚的印象に基づいてクリック決定を行うという事実にインスパイアされている。 本稿では,ニュースレコメンデーションのためのビジュアル・セマンティック・モデリングを用いて,このような視覚印象情報を捉えることを提案する。 さらに、グローバルな視点から印象を検査し、異なるフィールドの配置や印象に対する異なる単語の空間的位置などの構造情報を抽出する。
論文 参考訳(メタデータ) 参考訳(全文) (Sun, 26 Sep 2021 16:58:14 GMT)- 画像を併用してレコメンデーションの精度を上げる研究。様々なセッティングで性能向上を確認している。
- https://github.com/JiahaoXun/IMRec がリポジトリとのこと。
CrossCLR: クロスモーダルなContrastive Learning
- CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations [44.1]
対照的な学習は、負のサンプルの集合から正のペアを対比することで、強力な損失を柔軟に定義することができる。 CrossCLRは、その潜在能力を最大限活用することなく、ビデオとテキストのクロスモーダルな埋め込みを学習する。 これらの原則は、学習された埋め込みの品質を一貫して改善することを示します。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 30 Sep 2021 08:12:21 GMT)- 前の論文と同様にクロスモーダルなContrastive Learning。複数種類のデータを扱うことは自然な拡張ではあるが、研究の進み方が速い。
VideoCLIP: 対照学習を用いたゼロショットでのビデオ/テキスト理解
- VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding [13.6]
我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
論文 参考訳(メタデータ) (Tue, 28 Sep 2021 23:01:51 GMT)- 対照学習を使用したビデオ/テキストの事前学習モデル。fine tuningだとYouCook2でSoTA(に近い性能)、ゼロショットでも非常に優れた性能を発揮。データセットによってはゼロショットで既存のベースラインを超えるようなスコアを出している。
- リポジトリはhttps://github.com/pytorch/fairseq/examples/MMPTとのことだが現時点では404
OpenViDial 2.0: 大規模なマルチモーダル対話データセット
- OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 28 Sep 2021 15:15:57 GMT)- OpenViDialの5倍以上、5.6M対話と大きな画像付き対話データセット。データソースは映画やTVとのこと。
- リポジトリはhttps://github.com/ShannonAI/OpenViDial
Transformerによる映像-言語の事前学習モデルのサーベイ
- Survey: Transformer based Video-Language Pre-training [28.9]
本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法を概観することを目的としている。 まず、注意機構、位置符号化などを含む背景知識を紹介する。 シングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 21 Sep 2021 02:36:06 GMT)- 映像と言語を扱うTransformerの事前学習に関するサーベイ。モデルだけではなくデータセットも整理されている。16ページと短めだがとても参考になる。CC BYと翻訳可能なライセンスであることもありがたい。(注:残念ながらFuguMTが綺麗に訳せている事は意味しない)
GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA
- Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.0]
視覚・言語モデルによる文化的・地理的コモンセンス理解能力をテストするためにGeo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。 その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 14 Sep 2021 17:52:55 GMT)- 結婚式の画像は地域やその文化によって大幅に異なるなど、地域的特性が出る画像がある。西欧、東アジア、南アジア、アフリカに関する画像328枚と886のQAペアからなるデータセットを作成、VisualBERTとViLBERT(VCRでトレーニング済み)がGD-VCRに対応可能か確認、西欧地域以外では性能が下がることが分かったとのこと。
- 直感的にはそうなりそうだが確認されると興味深い結果。論文中の分析で地域特性(結婚式、宗教、祭りなど)を含むシナリオのギャップが大きいというのも納得感がある。顧客が登場するシナリオでも差が大きいとのことでこれは地元の商店で買い物をするか、スーパーマーケットで買い物をするかの差ではないかとのこと。この考察も面白い。
- 結婚式の画像は地域やその文化によって大幅に異なるなど、地域的特性が出る画像がある。西欧、東アジア、南アジア、アフリカに関する画像328枚と886のQAペアからなるデータセットを作成、VisualBERTとViLBERT(VCRでトレーニング済み)がGD-VCRに対応可能か確認、西欧地域以外では性能が下がることが分かったとのこと。
xGQA: 7言語の Visual Question Answering
- xGQA: Cross-Lingual Visual Question Answering [100.4]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。 確立された英語GQAデータセットを7言語に拡張する。 本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (Mon, 13 Sep 2021 15:58:21 GMT)- 7言語に対応するvisual question answeringデータセット。GQAデータセットを7言語に拡張。ゼロショットでの回答は難しく、few-shotのセッティングだと精度が改善するが依然として簡単ではないタスクであるよう。
- リポジトリはhttps://github.com/Adapter-Hub/xGQA
M5Product: 600万以上のマルチモーダルデータセット
- M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks [94.8]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。 M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 9 Sep 2021 13:50:22 GMT)- e-コマースの画像、テキスト、テーブル、ビデオ、オーディオを含む6M件と大規模なマルチモーダルデータセット。このデータをもとにした検索・分類・クラスタリングなどのタスクで優れた性能を出すM5-MMTをベースラインとして提案。
- プロジェクトサイトはhttps://xiaodongsuper.github.io/M5Product_dataset/
最近公開化された画像-テキスト 4億ペアからなるLAION-400M などマルチモーダルな大規模データセットが公開されるのは非常にありがたい。