Multimodal Deep Learningのサーベイ

  • A Review on Methods and Applications in Multimodal Deep Learning [8.2]
    マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。 本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。 様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 18 Feb 2022 13:50:44 GMT)
    • 近年非常に流行しているMMDL (MultiModal Deep Learning)のサーベイ。多様なモダリティをサーベイ対象にしており力作。概要を知るにはとても良い資料な気がする。
      • ただ、MMDLという略称はあまり見ないような・・・

Sparse Expert Modelの効率的設計

  • Designing Effective Sparse Expert Models [45.2]
    MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。 しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。 私たちの仕事はこれらの問題に焦点を当て、デザインガイドとして機能し、推論(SuperGLUE, ARC Easy, ARC Challenge)、要約(XSum, CNN-DM)、クローズドブック質問応答(WebQA, Natural Questions)、敵対的に構築されたタスク(Winogrande, ANLI R3)など、さまざまなタスクの集合において、トランスファーラーニングにおける最先端のパフォーマンスを初めて達成する。
    論文  参考訳(メタデータ)   (Thu, 17 Feb 2022 21:39:10 GMT)

CAISE(Conversational Agent for Image Search and Editing ): 対話型画像検索・編集データセット