コンテンツへスキップ
- A Review on Methods and Applications in Multimodal Deep Learning [8.2]
マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。 本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。 様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 18 Feb 2022 13:50:44 GMT)- 近年非常に流行しているMMDL (MultiModal Deep Learning)のサーベイ。多様なモダリティをサーベイ対象にしており力作。概要を知るにはとても良い資料な気がする。
- ただ、MMDLという略称はあまり見ないような・・・
- Designing Effective Sparse Expert Models [45.2]
MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。 しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。 私たちの仕事はこれらの問題に焦点を当て、デザインガイドとして機能し、推論(SuperGLUE, ARC Easy, ARC Challenge)、要約(XSum, CNN-DM)、クローズドブック質問応答(WebQA, Natural Questions)、敵対的に構築されたタスク(Winogrande, ANLI R3)など、さまざまなタスクの集合において、トランスファーラーニングにおける最先端のパフォーマンスを初めて達成する。
論文 参考訳(メタデータ) (Thu, 17 Feb 2022 21:39:10 GMT)
- CAISE: Conversational Agent for Image Search and Editing [109.6]
画像検索・編集のための自動会話エージェント(CAISE)のデータセットを提案する。 私たちの知る限り、これは対話型画像検索とアノテーションの編集を提供する最初のデータセットです。 アシスタントアノテーションがツールで実行する機能は実行可能なコマンドとして記録される。
論文 参考訳(メタデータ) (Thu, 24 Feb 2022 00:55:52 GMT)- 画像検索、編集を対話で行うモデル構築のためのデータセットを提案。ベースラインモデルも構築しているが、人との差は大きい。
- Adobe Researchの論文で今後このようなインタフェースに期待大。