コンテンツへスキップ
- Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.9]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。 本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。 我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (Fri, 4 Mar 2022 21:09:13 GMT)
- UDAAN – Machine Learning based Post-Editing tool for Document Translation [16.1]
UDAANはオープンソースのポスト編集ツールで、さまざまな言語で公開可能な標準文書を作成するために、手作業による編集作業を減らすことができる。 UDAANにはエンドツーエンドの機械翻訳と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。 本ツールでは,文書をスクラッチから翻訳する基本手法と比較して,翻訳時間を約3倍に高速化する。
論文 参考訳(メタデータ) (Thu, 3 Mar 2022 11:08:16 GMT)
- Audio Self-supervised Learning: A Survey [60.4]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。 コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理の分野で採用されている。
論文 参考訳(メタデータ) (Wed, 2 Mar 2022 15:58:29 GMT)- 音声分野でのSelf-supervised Learningをまとめたサーベイ。音声単体だけでなく音声+Visionのようなマルチモーダルな手法もサーベイ対象となっている。