2022年2月28日 – arXiv最新論文の紹介

Multimodal Deep Learningのサーベイ

A Review on Methods and Applications in Multimodal Deep Learning [8.2]
マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
論文参考訳（メタデータ）参考訳（全文） (Fri, 18 Feb 2022 13:50:44 GMT)
- 近年非常に流行しているMMDL (MultiModal Deep Learning)のサーベイ。多様なモダリティをサーベイ対象にしており力作。概要を知るにはとても良い資料な気がする。
  - ただ、MMDLという略称はあまり見ないような・・・

Designing Effective Sparse Expert Models [45.2]
MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。私たちの仕事はこれらの問題に焦点を当て、デザインガイドとして機能し、推論(SuperGLUE, ARC Easy, ARC Challenge)、要約(XSum, CNN-DM)、クローズドブック質問応答(WebQA, Natural Questions)、敵対的に構築されたタスク(Winogrande, ANLI R3)など、さまざまなタスクの集合において、トランスファーラーニングにおける最先端のパフォーマンスを初めて達成する。
論文参考訳（メタデータ） (Thu, 17 Feb 2022 21:39:10 GMT)
- 大規模スパースモデルの不安定さを解消、様々なタスクでSoTAとのこと。
- リポジトリはGitHub – tensorflow/mesh: Mesh TensorFlow: Model Parallelism Made Easier

CAISE: Conversational Agent for Image Search and Editing [109.6]
画像検索・編集のための自動会話エージェント(CAISE)のデータセットを提案する。私たちの知る限り、これは対話型画像検索とアノテーションの編集を提供する最初のデータセットです。アシスタントアノテーションがツールで実行する機能は実行可能なコマンドとして記録される。
論文参考訳（メタデータ） (Thu, 24 Feb 2022 00:55:52 GMT)
- 画像検索、編集を対話で行うモデル構築のためのデータセットを提案。ベースラインモデルも構築しているが、人との差は大きい。
  - Adobe Researchの論文で今後このようなインタフェースに期待大。
- リポジトリはGitHub – hyounghk/CAISE: Code and dataset for AAAI 2022 paper “CAISE: Conversational Agent for Image Search and Editing” Hyounghun Kim, Doo Soon Kim, Seunghyun Yoon, Franck Dernoncourt, Trung Bui, and Mohit Bansal