arXiv – ページ 232 – arXiv最新論文の紹介

MMGCN(MultiModal fused Graph Convolutional Network): マルチモーダルな感情認識

MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation [32.2]
本研究では,マルチモーダル融合グラフ畳み込みネットワークMMGCNに基づく新しいモデルを提案する。 MMGCNは、マルチモーダル依存関係を効果的に活用できるだけでなく、話者間の依存性や話者内依存性をモデル化するために話者情報を利用することもできる。提案したモデルを,IEMOCAPとMELDという2つの公開ベンチマークデータセット上で評価し,MMGCNの有効性を実証した。
論文参考訳（メタデータ） (Wed, 14 Jul 2021 15:37:02 GMT)
- 音響＋テキスト＋画像というマルチモーダルなデータを扱って（＋GCNで）感情認識タスクで優れた性能を出したという報告。マルチモーダルな情報を活用できるモデルであるが、SOTAのスコアには至っていないような・・・？

内部表現からの入力データの復元

Deep Neural Networks are Surprisingly Reversible: A Baseline for Zero-Shot Inversion [90.7]
本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。 ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
論文参考訳（メタデータ） (Tue, 13 Jul 2021 18:01:43 GMT)
- 内部表現から入力画像を戻せるか？を検討した論文。既存手法よりも高速、かつ高精度な復元が可能とのこと。（情報を残すように訓練されているとはいえ）42層後のデータからすら復元ができてるというのは面白い。

MaskFormer: マスク予測を行うアプローチによるセグメンテーション

Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.3]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文参考訳（メタデータ） (Tue, 13 Jul 2021 17:59:50 GMT)
- セグメンテーションではピクセルを分類しグルーピングしていくアプローチと物体検出後にマスク領域を予測していくアプローチの2つがある。近年はピクセルベースのアプローチが良く用いられていたが、後者のアプローチを用いセマンティックセグメンテーション、パノプティックセグメンテーションで優れた性能を達成したとのこと。
- https://bowenc0221.github.io/maskformer/からコード等を確認可能。

CMM(Configurable Multilingual Model): マルチリンガルな音声認識

A Configurable Multilingual Model is All You Need to Recognize All Languages [52.3]
本稿では,1回しか訓練されない新しい多言語モデル(CMM)を提案する。 CMMは、ユーザが1つ、2つ、3つの言語を選択すると、一般的な多言語モデルから26.4%、16.9%、および10.4%の単語誤りを減らす。
論文参考訳（メタデータ） (Tue, 13 Jul 2021 06:52:41 GMT)
- 言語指定可能なマルチリンガルな音声認識モデルを構築することで1言語のモデル及び通常のマルチリンガルモデルの性能を上回ったとの報告。
- 認識対象の言語が分かっているほうが聞き取りやすい、多言語での訓練が単言語においても有効（人間が出せる音は言語が変わっても共通部分がある）というのは人間っぽいなという感想を抱いた。

コミットメッセージの自動生成

On the Evaluation of Commit Message Generation Models: An Experimental Study [33.2]
コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。コミットメッセージを自動的に生成するために, 生成手法や検索手法を利用した様々な手法が提案されている。本稿では,最先端のモデルとデータセットの体系的,詳細な分析を行う。
論文参考訳（メタデータ） (Tue, 13 Jul 2021 02:04:53 GMT)
- コミットメッセージの自動生成に関する調査。データセット収集も実施、かつ、公開していて今後の研究に有用。話題のcopilotよりもかゆいところに手が届くツールのような気がする。
- データセット・コード等はhttps://github.com/DeepSoftwareAnalytics/CommitMsgEmpiricalから参照可能。

SynLiDAR: synthetic LiDAR point cloud dataset

SynLiDAR: Learning From Synthetic LiDAR Sequential Point Cloud for Semantic Segmentation [37.0]
SynLiDARは、正確な幾何学的形状と包括的なセマンティッククラスを備えた合成LiDARポイントクラウドデータセットである。 PCT-Netは、現実世界のポイントクラウドデータとのギャップを狭めることを目的としたポイントクラウド翻訳ネットワークである。複数のデータ拡張および半教師付きセマンティックセグメンテーションタスクに対する実験は、非常に肯定的な結果を示す。
論文参考訳（メタデータ）参考訳（全文） (Mon, 12 Jul 2021 12:51:08 GMT)
- LiDAR point cloudの大規模な合成データセット。仮想の都市や町、港から200k scans ( 19 billion points、32 semantic classes)を収集しているとのこと。合成データではあるが、転送学習を通して現実世界でも活用することが可能。この報告でも肯定的な結果とのこと。
- データ等はhttps://github.com/xiaoaoran/synlidarで公開予定。

S2ST(direct Speech-to-Speech Translation): 音声to音声の直接翻訳

Direct speech-to-speech translation with discrete units [64.2]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声to音声翻訳(S2ST)モデルを提案する。本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文参考訳（メタデータ） (Mon, 12 Jul 2021 17:40:43 GMT)
- 以前紹介したNiuTransと同様に直接的な音声翻訳の提案。Transformer型アーキテクチャ、self-supervised、マルチタスクを活用などこちらも様々なテクニックを活用している。（データがあれば）end to endでこの手のシステムが作れるかもしれないとは驚き。

ユーザの入力に基づいた画像生成のサーベイ

Deep Image Synthesis from Intuitive User Input: A Review and Perspectives [23.0]
コンピュータグラフィックス、アート、デザインの多くの応用において、ユーザはテキスト、スケッチ、ストローク、グラフ、レイアウトといった直感的な非画像入力を提供し、入力内容に準拠したフォトリアリスティックな画像を自動的に生成するコンピュータシステムを持つことが望ましい。 GAN(Generative Adversarial Network)やVAE(Variational autoencoders )、フローベース手法といった深層生成モデルの最近の進歩は、より強力で汎用的な画像生成タスクを可能にしている。本稿では,直感的なユーザ入力による画像合成,入力の汎用性の向上,画像生成手法,ベンチマークデータセット,評価指標について概説する。
論文参考訳（メタデータ） (Fri, 9 Jul 2021 06:31:47 GMT)
- 画像生成に関するサーベイ。流行の手法、データセット、評価指標など一通りの内容が記載されていて勉強になる。

低リソースでのニューラル機械翻訳サーベイ

A Survey on Low-Resource Neural Machine Translation [106.5]
我々は、低リソースNMTに関する調査を使用した補助データに基づいて(1)ソースおよび/またはターゲット言語の単言語データの活用,(2)補助言語からのデータの活用,(3)マルチモーダルデータの活用の3つのカテゴリに分類する。私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
論文参考訳（メタデータ） (Fri, 9 Jul 2021 06:26:38 GMT)
- リソースが少ない状況下でのニューラル機械翻訳に関するサーベイ。モノリンガルコーパスの利用、他言語データによる補助（マルチリンガル性や転移学習の利用）、マルチモーダルデータの利用など3つのカテゴリに分けてまとめている。この分野の概観を知るために良い資料であると思う。

NiuTrans: End-to-Endoの音声翻訳システム（IWSLT2021）

The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline Task [23.0]
本稿では,IWSLT 2021オフラインタスクに対して,NiuTransのエンドツーエンド音声翻訳システムを提案する。我々はTransformerベースのモデルアーキテクチャを使用し、Conformer、相対位置符号化、スタックされた音響およびテキスト符号化により拡張する。我々は MuST-C En-De テストセット上で 33.84 BLEU を達成する。
論文参考訳（メタデータ） (Thu, 8 Jul 2021 08:21:18 GMT)
- （様々なテクニックを使っているが）音声翻訳でもend-to-endなアプローチが優れた結果を出しているよう。

2025年3月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31