SynLiDAR: synthetic LiDAR point cloud dataset

  • SynLiDAR: Learning From Synthetic LiDAR Sequential Point Cloud for Semantic Segmentation [37.0]
    SynLiDARは、正確な幾何学的形状と包括的なセマンティッククラスを備えた合成LiDARポイントクラウドデータセットである。 PCT-Netは、現実世界のポイントクラウドデータとのギャップを狭めることを目的としたポイントクラウド翻訳ネットワークである。 複数のデータ拡張および半教師付きセマンティックセグメンテーションタスクに対する実験は、非常に肯定的な結果を示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 12 Jul 2021 12:51:08 GMT)
    • LiDAR point cloudの大規模な合成データセット。仮想の都市や町、港から200k scans ( 19 billion points、32 semantic classes)を収集しているとのこと。合成データではあるが、転送学習を通して現実世界でも活用することが可能。この報告でも肯定的な結果とのこと。

S2ST(direct Speech-to-Speech Translation): 音声to音声の直接翻訳

  • Direct speech-to-speech translation with discrete units [64.2]
    本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声to音声翻訳(S2ST)モデルを提案する。 本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。 対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
    論文  参考訳(メタデータ)   (Mon, 12 Jul 2021 17:40:43 GMT)
    • 以前紹介したNiuTransと同様に直接的な音声翻訳の提案。Transformer型アーキテクチャ、self-supervised、マルチタスクを活用などこちらも様々なテクニックを活用している。(データがあれば)end to endでこの手のシステムが作れるかもしれないとは驚き。