2022年2月 – arXiv最新論文の紹介

Multimodal Deep Learningのサーベイ

A Review on Methods and Applications in Multimodal Deep Learning [8.2]
マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
論文参考訳（メタデータ）参考訳（全文） (Fri, 18 Feb 2022 13:50:44 GMT)
- 近年非常に流行しているMMDL (MultiModal Deep Learning)のサーベイ。多様なモダリティをサーベイ対象にしており力作。概要を知るにはとても良い資料な気がする。
  - ただ、MMDLという略称はあまり見ないような・・・

Sparse Expert Modelの効率的設計

Designing Effective Sparse Expert Models [45.2]
MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。私たちの仕事はこれらの問題に焦点を当て、デザインガイドとして機能し、推論(SuperGLUE, ARC Easy, ARC Challenge)、要約(XSum, CNN-DM)、クローズドブック質問応答(WebQA, Natural Questions)、敵対的に構築されたタスク(Winogrande, ANLI R3)など、さまざまなタスクの集合において、トランスファーラーニングにおける最先端のパフォーマンスを初めて達成する。
論文参考訳（メタデータ） (Thu, 17 Feb 2022 21:39:10 GMT)
- 大規模スパースモデルの不安定さを解消、様々なタスクでSoTAとのこと。
- リポジトリはGitHub – tensorflow/mesh: Mesh TensorFlow: Model Parallelism Made Easier

CAISE(Conversational Agent for Image Search and Editing ): 対話型画像検索・編集データセット

CAISE: Conversational Agent for Image Search and Editing [109.6]
画像検索・編集のための自動会話エージェント(CAISE)のデータセットを提案する。私たちの知る限り、これは対話型画像検索とアノテーションの編集を提供する最初のデータセットです。アシスタントアノテーションがツールで実行する機能は実行可能なコマンドとして記録される。
論文参考訳（メタデータ） (Thu, 24 Feb 2022 00:55:52 GMT)
- 画像検索、編集を対話で行うモデル構築のためのデータセットを提案。ベースラインモデルも構築しているが、人との差は大きい。
  - Adobe Researchの論文で今後このようなインタフェースに期待大。
- リポジトリはGitHub – hyounghk/CAISE: Code and dataset for AAAI 2022 paper “CAISE: Conversational Agent for Image Search and Editing” Hyounghun Kim, Doo Soon Kim, Seunghyun Yoon, Franck Dernoncourt, Trung Bui, and Mohit Bansal

Large Scale Neural Network Trainingのサーベイ

Survey on Large Scale Neural Network Training [48.4]
現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。
論文参考訳（メタデータ） (Mon, 21 Feb 2022 18:48:02 GMT)
- 大規模ニューラルネットをいかに学習するかに関するサーベイ。Single GPU、マルチ GPU双方の内容を扱っている。8ページと短いが様々なアプローチとトレードオフが整理されていて面白い。

Vision-Language Pre-trainingのSurvey

VLP: A Survey on Vision-Language Pre-training [24.1]
事前学習モデルの出現は、コンピュータビジョン (CV) や自然言語処理 (NLP) のような一様場を新しい時代にもたらした。本稿では、画像テキストやビデオテキストの事前学習など、視覚言語事前学習の最近の進歩と新たなフロンティアについて調査する。
論文参考訳（メタデータ） (Mon, 21 Feb 2022 02:58:34 GMT)
- image-text、video-textに対するVLP（VisionLanguage Pre-training）に関するサーベイ。8ページと短いが参考になる。6ページの表から非常の多くの手法があることが分かる。。。

ArgSciChat: 学術論文を対象とした議論対話データセット

ArgSciChat: A Dataset for Argumentative Dialogues on Scientific Papers [61.8]
学術論文のドメインエキスパートとして科学者間の対話を収集する新しい枠組みを導入する。我々のフレームワークは、科学者が論文を対話の根拠として提示し、論文のタイトルを気に入った対話に参加することを可能にする。新しい議論的対話データセットArgSciChatの収集にフレームワークを使用します。 41の対話から収集された498のメッセージと20の科学論文からなる。
論文参考訳（メタデータ） (Mon, 14 Feb 2022 13:27:19 GMT)
- 科学者の対話という珍しいデータセット。科学的対話は難しい領域であることがわかったとのこと。
  - 会話エージェントがうまく動作しないという結果はそんなものだと思うが、その理由がはっきりしない気がしている。。。
- リポジトリはGitHub – federicoruggeri/argscichat_project: Official repository of paper “ArgSciChat: A Dataset of Argumentative Conversational Discussions on Scientific Papers”

テキスト生成のための Contrastive Framework

A Contrastive Framework for Neural Text Generation [46.8]
テキスト生成は多くの自然言語処理アプリケーションにおいて非常に重要である。しかし、ニューラルネットワークモデルの最大化に基づく復号法(ビーム探索など)は、しばしば不自然であり、望ましくない繰り返しを含んでいる。モデル表現空間を校正するための対照的な学習目標であるSimCTGと,生成したテキストのコヒーレンスを維持しつつ多様性を高めるためのデコード手法であるコントラスト検索を提案する。
論文参考訳（メタデータ）参考訳（全文） (Sun, 13 Feb 2022 21:46:14 GMT)
- （FuguMTやarXiv翻訳サイトでもたまに見られる）単語の繰り返しのようなテキスト生成を防ぐための手法の提案。
  - 「トークン表現の異方性分布がモデルデジェネレーションの根本的な原因」とのことだが、分散表現の値（重み）が特定部分に偏ると理解して良いのだろうか・・・？
- リポジトリはGitHub – yxuansu/SimCTG: A Contrastive Framework for Neural Text Generation、日本語でも動作しているのが凄い。

SpeechPainter: 音声が欠けた部分を埋めるモデル

SpeechPainter: Text-conditioned Speech Inpainting [12.0]
本稿では,音声サンプルの最大1秒間を補助的なテキスト入力を利用して埋め込むモデルであるSpeechPainterを提案する。本研究では, 話者識別, 韻律, 記録環境条件を維持しながら, 適切な内容で音声を表現できることを実証する。
論文参考訳（メタデータ） (Tue, 15 Feb 2022 09:33:30 GMT)
- 音声（発話）データで一部が欠けたもの＋補助テキストを用いて欠けた部分を埋めるモデルの提案。プロジェクトサイトのデモが面白い。
  - 面白いと同時にFakeなものに使われそうで怖い。
- プロジェクトサイトAudio samples for “SpeechPainter: Text-conditioned Speech Inpainting”にサンプルが存在

NLPデータセットに対するScaling Law

Scaling Laws Under the Microscope: Predicting Transformer Performance from Small Scale Experiments [42.8]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文参考訳（メタデータ） (Sun, 13 Feb 2022 19:13:00 GMT)
- SST-2、QNLI、MRPC、RACE、SQuAD 1.1、SQuAD 2.0、BoolQ、CoLA 、MNLIに対してパラメータ数と性能の関係を調査、Scaling Lawsは大規模化した際のパフォーマンス予測に有用では？との結論
  - ネットワークアーキテクチャやデータにもよるんじゃないかとも思いつつ、実験結果は興味深い

対話システムにおける社会的バイアスとCDAIL-BIAS DATASET

Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and Benchmarks [95.3]
本稿では,ダイアログの安全性問題に対する社会的バイアス検出に焦点をあてる。まず,会話における社会的バイアスを現実的に分析する新しいダイアルバイアスフレームを提案する。中国初の社会バイアスダイアログデータセットであるCDail-Biasデータセットを紹介する。
論文参考訳（メタデータ） (Wed, 16 Feb 2022 11:59:29 GMT)
- 今後ユーザインタフェースとして普及が予想される対話システムにおいて、社内的バイアスの存在が問題視されている。その検出のためのデータセット（中国版）を作成、ベースラインを提供。
- データセットは今後公開予定とのこと。

2022年2月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28