マルチモーダル – ページ 19 – arXiv最新論文の紹介

マルチモーダル性を活用した電子健康記録データの分析

How to Leverage Multimodal EHR Data for Better Medical Predictions? [13.4]
電子健康記録(EHR)データの複雑さは、ディープラーニングの適用の課題である。本稿では,まずEHRから臨床ノートを抽出し,これらのデータを統合する方法を提案する。 2つの医療予測タスクの結果、異なるデータを持つ融合モデルが最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (Fri, 29 Oct 2021 13:26:05 GMT)
- EHR （Electronic Health Record）のデータ分析において時間に影響されないデータ、時系列性のあるデータ（離散/連続）、臨床ノートの情報という複数種類のデータを統合した結果性能向上に有効だったとの報告。
- リポジトリはhttps://github.com/emnlp-mimic/mimic

音声/画像によるAnomaly Event Detection

Audio-visual Representation Learning for Anomaly Events Detection in Crowds [119.7]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文参考訳（メタデータ）参考訳（全文） (Thu, 28 Oct 2021 02:42:48 GMT)
- 音声＋画像による異常検知。直感的にも効果がありそう。複数の情報ソースを束ね高性能を目指すアプローチは今後も有望だと思う。

WenLan 2.0: マルチモーダルな巨大事前学習モデル

WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.5]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ）参考訳（全文） (Wed, 27 Oct 2021 12:25:21 GMT)
- 極めて大規模な画像/テキストの事前学習モデル。CLIPとの比較が興味深く、性能はCLIPを超えるとのこと。
- 「Overall, we believe that pre-training a large-scale multimodal foundation model is indeed a potential approach to achieving AGI.」や「Overall, these ﬁndings indicate that pre-training a multimodal (visual and textual) foundation model can make a giant stride towards AGI.」などAGIを意識した記載が多くこれも面白い。この研究の先にAGIが見えているんだろうか？
  - 個人的には可能性を感じていて興味津々

FooDI-ML: マルチリンガルな食品画像＋説明のデータセット

FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。データセットにはスペイン語や英語など、広く話されている言語も含まれている。
論文参考訳（メタデータ） (Tue, 5 Oct 2021 13:33:08 GMT)
- 2.8M以上の食料品や飲料など画像と33言語の9.5M以上の説明文、店舗名、商品名、収集セクションを含むデータセット。ライセンスはCC BY-NC-SA。今後2倍以上のサイズのデータセット構築を予定しているとのこと。
- リポジトリはhttps://github.com/Glovo/foodi-ml-dataset

IMRec(IMpression-aware multi-modal news Recommendation framework):画像+テキストなニュースレコメンデーション

Why Do We Click: Visual Impression-aware News Recommendation [108.7]
この作品は、ユーザーがニュースを閲覧する際に感じる視覚的印象に基づいてクリック決定を行うという事実にインスパイアされている。本稿では,ニュースレコメンデーションのためのビジュアル・セマンティック・モデリングを用いて,このような視覚印象情報を捉えることを提案する。さらに、グローバルな視点から印象を検査し、異なるフィールドの配置や印象に対する異なる単語の空間的位置などの構造情報を抽出する。
論文参考訳（メタデータ）参考訳（全文） (Sun, 26 Sep 2021 16:58:14 GMT)
- 画像を併用してレコメンデーションの精度を上げる研究。様々なセッティングで性能向上を確認している。
- https://github.com/JiahaoXun/IMRec　がリポジトリとのこと。

CrossCLR: クロスモーダルなContrastive Learning

CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations [44.1]
対照的な学習は、負のサンプルの集合から正のペアを対比することで、強力な損失を柔軟に定義することができる。 CrossCLRは、その潜在能力を最大限活用することなく、ビデオとテキストのクロスモーダルな埋め込みを学習する。これらの原則は、学習された埋め込みの品質を一貫して改善することを示します。
論文参考訳（メタデータ）参考訳（全文） (Thu, 30 Sep 2021 08:12:21 GMT)
- 前の論文と同様にクロスモーダルなContrastive Learning。複数種類のデータを扱うことは自然な拡張ではあるが、研究の進み方が速い。

VideoCLIP: 対照学習を用いたゼロショットでのビデオ/テキスト理解

VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding [13.6]
我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
論文参考訳（メタデータ） (Tue, 28 Sep 2021 23:01:51 GMT)
- 対照学習を使用したビデオ/テキストの事前学習モデル。fine tuningだとYouCook2でSoTA（に近い性能）、ゼロショットでも非常に優れた性能を発揮。データセットによってはゼロショットで既存のベースラインを超えるようなスコアを出している。
- リポジトリはhttps://github.com/pytorch/fairseq/examples/MMPTとのことだが現時点では404

OpenViDial 2.0: 大規模なマルチモーダル対話データセット

OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts [20.4]
より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
論文参考訳（メタデータ）参考訳（全文） (Tue, 28 Sep 2021 15:15:57 GMT)
- OpenViDialの5倍以上、5.6M対話と大きな画像付き対話データセット。データソースは映画やTVとのこと。
- リポジトリはhttps://github.com/ShannonAI/OpenViDial

Transformerによる映像-言語の事前学習モデルのサーベイ

Survey: Transformer based Video-Language Pre-training [28.9]
本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法を概観することを目的としている。まず、注意機構、位置符号化などを含む背景知識を紹介する。シングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
論文参考訳（メタデータ）参考訳（全文） (Tue, 21 Sep 2021 02:36:06 GMT)
- 映像と言語を扱うTransformerの事前学習に関するサーベイ。モデルだけではなくデータセットも整理されている。16ページと短めだがとても参考になる。CC BYと翻訳可能なライセンスであることもありがたい。（注：残念ながらFuguMTが綺麗に訳せている事は意味しない）

GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA

Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.0]
視覚・言語モデルによる文化的・地理的コモンセンス理解能力をテストするためにGeo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文参考訳（メタデータ）参考訳（全文） (Tue, 14 Sep 2021 17:52:55 GMT)
- 結婚式の画像は地域やその文化によって大幅に異なるなど、地域的特性が出る画像がある。西欧、東アジア、南アジア、アフリカに関する画像328枚と886のQAペアからなるデータセットを作成、VisualBERTとViLBERT（VCRでトレーニング済み）がGD-VCRに対応可能か確認、西欧地域以外では性能が下がることが分かったとのこと。
  - 直感的にはそうなりそうだが確認されると興味深い結果。論文中の分析で地域特性(結婚式、宗教、祭りなど)を含むシナリオのギャップが大きいというのも納得感がある。顧客が登場するシナリオでも差が大きいとのことでこれは地元の商店で買い物をするか、スーパーマーケットで買い物をするかの差ではないかとのこと。この考察も面白い。
- リポジトリはhttps://github.com/WadeYin9712/GD-VCR

2026年3月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31