- HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning [114.2]
マルチタスクと移動学習が可能な汎用マルチモーダルモデルを設計する。 得られたモデルは、テキスト、画像、ビデオ、オーディオ、時系列、センサー、テーブルにまたがって一般化され、異なる研究領域から設定される。 コードとベンチマークを公開し、その後の理論的および経験的分析のための統一されたプラットフォームを提供したいと思っています。
論文 参考訳(メタデータ) (Wed, 2 Mar 2022 18:56:20 GMT)- 10という多くのモダリティを統一的に(パラメータを共有しながら)扱える手法の提案。
- 入力は一律で小パッチ(の分散表現)のシーケンスとして扱うとのことでこの方針は汎用的っぽい。
- 2, 3以上のモダリティが統一的に扱えていくと非常に汎用的なモデルとして使えそうで面白い
- リポジトリはGitHub – pliang279/HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning
- 10という多くのモダリティを統一的に(パラメータを共有しながら)扱える手法の提案。