Florence: Computer Visionの基礎モデル

  • Florence: A New Foundation Model for Computer Vision [97.3]
    多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フィレンツェモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
    論文  参考訳(メタデータ)   (Mon, 22 Nov 2021 18:59:55 GMT)
    • 画像分野における基礎モデルとしてSpace-Time-Modality方向において有効であり、zero/few-shot/fine-tuningの何れも動作するものを構築。多くのベンチマークでSoTAを達成。VQA v2で80を超えたのは初めてでは?と思う。
      • Space: シーン認識 → 細かいオブジェクトの認識やセグメンテーションなど
      • Time: 静的な画像 → ダイナミックな動作の認識やオブジェクトトラッキングなど
      • Modality: RGB only → 深度の利用やキャプショニングなどマルチモーダルな方向
    • FLD-900M(FLorenceDataset-900M)という9億の画像-テキストペアのデータセット、FLOD-9M (FLorence Object detection Dataset-9M)という9Mイメージ、25Kカテゴリ、33M BBOXのデータセットなど利用しているデータも大規模。
    • A holistic representation toward integrative AI – Microsoft Researchに向けた第一歩とのことで今後も期待大。

UFO(UniFied TransfOrmer):画像/言語で単一/マルチモーダル対応のTransformer

  • UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
    視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。 既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 03:23:10 GMT)
    • 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。

LiT-tuning(Locked-image Text tuning): 効果的なゼロショット

  • LiT: Zero-Shot Transfer with Locked-image Text Tuning [68.8]
    『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。 LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
    論文  参考訳(メタデータ)   (Mon, 15 Nov 2021 18:53:48 GMT)
    • 40億のイメージ-テキストペアを用いたLiT-tuningによりゼロショットImageNetで84.5%の精度を達成。
    • 画像モデル部分をロックして学習することが効果的とのことで「画像-テキストデータは、自然言語と視覚世界の対応を学ぶのに最適であるが、最先端の画像表現を学ぶためには正確かつクリーンではないかもしれない」との指摘。

MTVM(Multimodal Transformer with Variable-length Memory)を用いたナビゲーション

  • Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation [79.2]
    VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。 近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。 視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランスフォーマー (Multimodal Transformer) を提案する。
    論文  参考訳(メタデータ)   (Wed, 10 Nov 2021 16:04:49 GMT)
    • VLMを一見シンプルなTransformerで解き、優れた性能を達成とのこと。

CLEVER(Curious Layperson-to-Expert Visual Entity Recognition): エキスパートのアノテーションを使わない画像認識

  • The Curious Layperson: Fine-Grained Image Recognition without Expert Labels [90.9]
    我々は、専門家のアノテーションを使わずに、画像認識する新しい問題を考える。 非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。 次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 5 Nov 2021 17:58:37 GMT)
    • 百科事典のようなデータがある状況下でその記載を読み解いて画像分類につなげる問題を扱った論文。専門家によるラベルは存在しない。普通の人がWikipediaを見ながら勉強するような状況を想定しているようで、面白い問題設定。

マルチモーダル性を活用した電子健康記録データの分析

  • How to Leverage Multimodal EHR Data for Better Medical Predictions? [13.4]
    電子健康記録(EHR)データの複雑さは、ディープラーニングの適用の課題である。 本稿では,まずEHRから臨床ノートを抽出し,これらのデータを統合する方法を提案する。 2つの医療予測タスクの結果、異なるデータを持つ融合モデルが最先端の手法より優れていることが示された。
    論文  参考訳(メタデータ)   (Fri, 29 Oct 2021 13:26:05 GMT)
    • EHR (Electronic Health Record)のデータ分析において時間に影響されないデータ、時系列性のあるデータ(離散/連続)、臨床ノートの情報という複数種類のデータを統合した結果性能向上に有効だったとの報告。

音声/画像によるAnomaly Event Detection

  • Audio-visual Representation Learning for Anomaly Events Detection in Crowds [119.7]
    本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。 監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。 音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 28 Oct 2021 02:42:48 GMT)
    • 音声+画像による異常検知。直感的にも効果がありそう。複数の情報ソースを束ね高性能を目指すアプローチは今後も有望だと思う。

WenLan 2.0: マルチモーダルな巨大事前学習モデル

  • WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.5]
    我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。 そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 27 Oct 2021 12:25:21 GMT)
    • 極めて大規模な画像/テキストの事前学習モデル。CLIPとの比較が興味深く、性能はCLIPを超えるとのこと。
    • 「Overall, we believe that pre-training a large-scale multimodal foundation model is indeed a potential approach to achieving AGI.」や「Overall, these findings indicate that pre-training a multimodal (visual and textual) foundation model can make a giant stride towards AGI.」などAGIを意識した記載が多くこれも面白い。この研究の先にAGIが見えているんだろうか?
      • 個人的には可能性を感じていて興味津々

FooDI-ML: マルチリンガルな食品画像+説明のデータセット

  • FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
    このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。 データセットにはスペイン語や英語など、広く話されている言語も含まれている。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 13:33:08 GMT)
    • 2.8M以上の食料品や飲料など画像と33言語の9.5M以上の説明文、店舗名、商品名、収集セクションを含むデータセット。ライセンスはCC BY-NC-SA。今後2倍以上のサイズのデータセット構築を予定しているとのこと。
    • リポジトリはhttps://github.com/Glovo/foodi-ml-dataset

IMRec(IMpression-aware multi-modal news Recommendation framework):画像+テキストなニュースレコメンデーション

  • Why Do We Click: Visual Impression-aware News Recommendation [108.7]
    この作品は、ユーザーがニュースを閲覧する際に感じる視覚的印象に基づいてクリック決定を行うという事実にインスパイアされている。 本稿では,ニュースレコメンデーションのためのビジュアル・セマンティック・モデリングを用いて,このような視覚印象情報を捉えることを提案する。 さらに、グローバルな視点から印象を検査し、異なるフィールドの配置や印象に対する異なる単語の空間的位置などの構造情報を抽出する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 26 Sep 2021 16:58:14 GMT)
    • 画像を併用してレコメンデーションの精度を上げる研究。様々なセッティングで性能向上を確認している。
    • https://github.com/JiahaoXun/IMRec がリポジトリとのこと。