SynLiDAR: synthetic LiDAR point cloud dataset

  • SynLiDAR: Learning From Synthetic LiDAR Sequential Point Cloud for Semantic Segmentation [37.0]
    SynLiDARは、正確な幾何学的形状と包括的なセマンティッククラスを備えた合成LiDARポイントクラウドデータセットである。 PCT-Netは、現実世界のポイントクラウドデータとのギャップを狭めることを目的としたポイントクラウド翻訳ネットワークである。 複数のデータ拡張および半教師付きセマンティックセグメンテーションタスクに対する実験は、非常に肯定的な結果を示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 12 Jul 2021 12:51:08 GMT)
    • LiDAR point cloudの大規模な合成データセット。仮想の都市や町、港から200k scans ( 19 billion points、32 semantic classes)を収集しているとのこと。合成データではあるが、転送学習を通して現実世界でも活用することが可能。この報告でも肯定的な結果とのこと。

S2ST(direct Speech-to-Speech Translation): 音声to音声の直接翻訳

  • Direct speech-to-speech translation with discrete units [64.2]
    本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声to音声翻訳(S2ST)モデルを提案する。 本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。 対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
    論文  参考訳(メタデータ)   (Mon, 12 Jul 2021 17:40:43 GMT)
    • 以前紹介したNiuTransと同様に直接的な音声翻訳の提案。Transformer型アーキテクチャ、self-supervised、マルチタスクを活用などこちらも様々なテクニックを活用している。(データがあれば)end to endでこの手のシステムが作れるかもしれないとは驚き。

ユーザの入力に基づいた画像生成のサーベイ

  • Deep Image Synthesis from Intuitive User Input: A Review and Perspectives [23.0]
    コンピュータグラフィックス、アート、デザインの多くの応用において、ユーザはテキスト、スケッチ、ストローク、グラフ、レイアウトといった直感的な非画像入力を提供し、入力内容に準拠したフォトリアリスティックな画像を自動的に生成するコンピュータシステムを持つことが望ましい。 GAN(Generative Adversarial Network)やVAE(Variational autoencoders )、フローベース手法といった深層生成モデルの最近の進歩は、より強力で汎用的な画像生成タスクを可能にしている。 本稿では,直感的なユーザ入力による画像合成,入力の汎用性の向上,画像生成手法,ベンチマークデータセット,評価指標について概説する。
    論文  参考訳(メタデータ)   (Fri, 9 Jul 2021 06:31:47 GMT)
    • 画像生成に関するサーベイ。流行の手法、データセット、評価指標など一通りの内容が記載されていて勉強になる。

低リソースでのニューラル機械翻訳サーベイ

  • A Survey on Low-Resource Neural Machine Translation [106.5]
    我々は、低リソースNMTに関する調査を使用した補助データに基づいて(1)ソースおよび/またはターゲット言語の単言語データの活用,(2)補助言語からのデータの活用,(3)マルチモーダルデータの活用の3つのカテゴリに分類する。 私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
    論文  参考訳(メタデータ)   (Fri, 9 Jul 2021 06:26:38 GMT)
    • リソースが少ない状況下でのニューラル機械翻訳に関するサーベイ。モノリンガルコーパスの利用、他言語データによる補助(マルチリンガル性や転移学習の利用)、マルチモーダルデータの利用など3つのカテゴリに分けてまとめている。この分野の概観を知るために良い資料であると思う。

NiuTrans: End-to-Endoの音声翻訳システム(IWSLT2021)

  • The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline Task [23.0]
    本稿では,IWSLT 2021オフラインタスクに対して,NiuTransのエンドツーエンド音声翻訳システムを提案する。 我々はTransformerベースのモデルアーキテクチャを使用し、Conformer、相対位置符号化、スタックされた音響およびテキスト符号化により拡張する。 我々は MuST-C En-De テストセット上で 33.84 BLEU を達成する。
    論文  参考訳(メタデータ)   (Thu, 8 Jul 2021 08:21:18 GMT)
    • (様々なテクニックを使っているが)音声翻訳でもend-to-endなアプローチが優れた結果を出しているよう。

SSSE(Single-Step Sample Erasure): モデルからのデータ削除

  • SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.4]
    サンプル消去のための効率的なアルゴリズムSSSEを提案する。 ある場合、SSSEは許可されたデータだけを用いて「スクラッチからモデルをトレーニングする最適だが実用的でない方法」と同様に、サンプルをほぼ消去することができる。
    論文  参考訳(メタデータ)   (Thu, 8 Jul 2021 14:17:24 GMT)
    • モデルから特定のデータポイントを削除する研究。GDPRの忘れられる権利の対応など、機械学習を社会で使っていくためには重要な技術。論文中でも書かれている通り、要請等に基づいて個人情報をデータベースから削除する場合、そのデータを使って作成したモデルからも当該情報を除く必要があるかははっきりしていないが、対応が必要な可能性はあると思う。
    • この手の研究でも評価指標が課題になっているよう。これまた論文中でも若干触れられているmembership inference attacks(メンバシップ推論攻撃)への耐性も気になるところ。

Deep Neural Networksの不確実性に関するサーベイ

  • A Survey of Uncertainty in Deep Neural Networks [39.7]
    これは、ニューラルネットワークにおける不確実性推定に関心のある人に、幅広い概要と導入を提供することを目的としている。 最も重要な不確実性源を包括的に紹介し、再現可能なモデル不確実性への分離と、再現可能なデータ不確実性について述べる。 本稿では,ニューラルネットワークのキャリブレーションに対する様々な不確実性,アプローチ,既存のベースラインと実装の概要について論じる。
    論文  参考訳(メタデータ)   (Wed, 7 Jul 2021 16:39:28 GMT)
    • DNNの不確実性を幅広く扱ったサーベイで41ページ、345件の論文を引用と大作。不確実性とのタイトルだが、DNNを社会実装する際の危険性を知るために非常に参考になるとの印象。推定や対策として提案されている手法についての解説もある。
      • 「不確実性の推定」と言われると個人的には違和感があるが……

対話要約データセットとモデルのサーベイ

  • A Survey on Dialogue Summarization: Recent Advances and New Frontiers [19.1]
    本稿では、利用可能な研究データセットの概要と、入力対話の領域に従って既存の作業を要約し、統一されたメトリクスの下でリーダーボードを編成する。 コミュニティに迅速なアクセスと,この課題の全体像を提供し,今後の研究を動機付けることを願っている。
    論文  参考訳(メタデータ)   (Wed, 7 Jul 2021 12:11:14 GMT)
    • 対話要約に関するサーベイ。通常のDocument summarizationとは似て非なるタスク。会議、会話、e-mailのやり取り、カスタマーサービス、医療と対象とするドメインも様々。非常に参考になる。

VidLanKD(Video-Language Knowledge Distillation method):動画-テキストデータを用いた事前学習

  • VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.4]
    言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。 我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。 我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。 
    論文  参考訳(メタデータ)   (Tue, 6 Jul 2021 15:41:32 GMT)
    • ビデオテキストデータセットでまずマルチモーダルモデルを構築、蒸留の枠組みで言語モデル構築に利用する研究。SQuAD等のデータセットで効果を確認したとのこと。画像とテキストの融合が、テキストオンリーのタスクにも有効というのが興味深い。

Long-Short Transformer: 言語・画像ともに有効なアテンション機構

  • Long-Short Transformer: Efficient Transformers for Language and Vision [97.3]
    Long-Short Transformer, Transformer-LSは、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。 遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。 提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
    論文  参考訳(メタデータ)   (Mon, 5 Jul 2021 18:00:14 GMT)
    • long rangeな相関、局所的な特徴の組み合わせによって性能を向上させたtransformer。言語(LRA benchmark)ではReformer, Linformer, Performer, Nyströmformerなど効率性を狙ったtransformer型モデルより高性能、言語モデル構築ではメモリ使用量が少なく高速に学習でき優れた性能。画像(imagenet)ではCvTやViLよりも本件機構を組み込んだものの方が高性能とのこと。
    • The models and source code will be released soon.とのことでコード等も公開されるよう。