コンテンツへスキップ
- A Review on Methods and Applications in Multimodal Deep Learning [8.2]
マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。 本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。 様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 18 Feb 2022 13:50:44 GMT)- 近年非常に流行しているMMDL (MultiModal Deep Learning)のサーベイ。多様なモダリティをサーベイ対象にしており力作。概要を知るにはとても良い資料な気がする。
- ただ、MMDLという略称はあまり見ないような・・・
- Designing Effective Sparse Expert Models [45.2]
MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。 しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。 私たちの仕事はこれらの問題に焦点を当て、デザインガイドとして機能し、推論(SuperGLUE, ARC Easy, ARC Challenge)、要約(XSum, CNN-DM)、クローズドブック質問応答(WebQA, Natural Questions)、敵対的に構築されたタスク(Winogrande, ANLI R3)など、さまざまなタスクの集合において、トランスファーラーニングにおける最先端のパフォーマンスを初めて達成する。
論文 参考訳(メタデータ) (Thu, 17 Feb 2022 21:39:10 GMT)
- CAISE: Conversational Agent for Image Search and Editing [109.6]
画像検索・編集のための自動会話エージェント(CAISE)のデータセットを提案する。 私たちの知る限り、これは対話型画像検索とアノテーションの編集を提供する最初のデータセットです。 アシスタントアノテーションがツールで実行する機能は実行可能なコマンドとして記録される。
論文 参考訳(メタデータ) (Thu, 24 Feb 2022 00:55:52 GMT)- 画像検索、編集を対話で行うモデル構築のためのデータセットを提案。ベースラインモデルも構築しているが、人との差は大きい。
- Adobe Researchの論文で今後このようなインタフェースに期待大。
- Survey on Large Scale Neural Network Training [48.4]
現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。 この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。
論文 参考訳(メタデータ) (Mon, 21 Feb 2022 18:48:02 GMT)- 大規模ニューラルネットをいかに学習するかに関するサーベイ。Single GPU、マルチ GPU双方の内容を扱っている。8ページと短いが様々なアプローチとトレードオフが整理されていて面白い。
- VLP: A Survey on Vision-Language Pre-training [24.1]
事前学習モデルの出現は、コンピュータビジョン (CV) や自然言語処理 (NLP) のような一様場を新しい時代にもたらした。 本稿では、画像テキストやビデオテキストの事前学習など、視覚言語事前学習の最近の進歩と新たなフロンティアについて調査する。
論文 参考訳(メタデータ) (Mon, 21 Feb 2022 02:58:34 GMT)- image-text、video-textに対するVLP(VisionLanguage Pre-training)に関するサーベイ。8ページと短いが参考になる。6ページの表から非常の多くの手法があることが分かる。。。
- ArgSciChat: A Dataset for Argumentative Dialogues on Scientific Papers [61.8]
学術論文のドメインエキスパートとして科学者間の対話を収集する新しい枠組みを導入する。 我々のフレームワークは、科学者が論文を対話の根拠として提示し、論文のタイトルを気に入った対話に参加することを可能にする。新しい議論的対話データセットArgSciChatの収集にフレームワークを使用します。 41の対話から収集された498のメッセージと20の科学論文からなる。
論文 参考訳(メタデータ) (Mon, 14 Feb 2022 13:27:19 GMT)
- A Contrastive Framework for Neural Text Generation [46.8]
テキスト生成は多くの自然言語処理アプリケーションにおいて非常に重要である。 しかし、ニューラルネットワークモデルの最大化に基づく復号法(ビーム探索など)は、しばしば不自然であり、望ましくない繰り返しを含んでいる。モデル表現空間を校正するための対照的な学習目標であるSimCTGと,生成したテキストのコヒーレンスを維持しつつ多様性を高めるためのデコード手法であるコントラスト検索を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Sun, 13 Feb 2022 21:46:14 GMT)
- SpeechPainter: Text-conditioned Speech Inpainting [12.0]
本稿では,音声サンプルの最大1秒間を補助的なテキスト入力を利用して埋め込むモデルであるSpeechPainterを提案する。 本研究では, 話者識別, 韻律, 記録環境条件を維持しながら, 適切な内容で音声を表現できることを実証する。
論文 参考訳(メタデータ) (Tue, 15 Feb 2022 09:33:30 GMT)
- Scaling Laws Under the Microscope: Predicting Transformer Performance from Small Scale Experiments [42.8]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。 スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。 スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (Sun, 13 Feb 2022 19:13:00 GMT)- SST-2、QNLI、MRPC、RACE、SQuAD 1.1、SQuAD 2.0、BoolQ、CoLA 、MNLIに対してパラメータ数と性能の関係を調査、Scaling Lawsは大規模化した際のパフォーマンス予測に有用では?との結論
- ネットワークアーキテクチャやデータにもよるんじゃないかとも思いつつ、実験結果は興味深い
- Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and Benchmarks [95.3]
本稿では,ダイアログの安全性問題に対する社会的バイアス検出に焦点をあてる。 まず,会話における社会的バイアスを現実的に分析する新しいダイアルバイアスフレームを提案する。 中国初の社会バイアスダイアログデータセットであるCDail-Biasデータセットを紹介する。
論文 参考訳(メタデータ) (Wed, 16 Feb 2022 11:59:29 GMT)- 今後ユーザインタフェースとして普及が予想される対話システムにおいて、社内的バイアスの存在が問題視されている。その検出のためのデータセット(中国版)を作成、ベースラインを提供。