2022年3月10日 – arXiv最新論文の紹介

MMVID(MultiModal VIDeo generator): マルチモーダルな情報を使ったビデオ合成

Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.9]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文参考訳（メタデータ） (Fri, 4 Mar 2022 21:09:13 GMT)
- テキスト情報、画像、セグメンテーション情報などマルチモーダルな情報を活用したビデオ合成。プロジェクトサイトの動画を見るとよくできていてびっくりする。
- プロジェクトサイトはShow Me What and Tell Me How: Video Synthesis via Multimodal Conditioning (snap-research.github.io)、リポジトリはGitHub – snap-research/MMVID: [CVPR 2022] Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning

UDAAN – Machine Learning based Post-Editing tool for Document Translation [16.1]
UDAANはオープンソースのポスト編集ツールで、さまざまな言語で公開可能な標準文書を作成するために、手作業による編集作業を減らすことができる。 UDAANにはエンドツーエンドの機械翻訳と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。本ツールでは,文書をスクラッチから翻訳する基本手法と比較して,翻訳時間を約3倍に高速化する。
論文参考訳（メタデータ） (Thu, 3 Mar 2022 11:08:16 GMT)
- あまり見かけないオープンソースのポストエディットツール。論文やツール紹介は英語/ヒンディー語が対象だがツールは言語とは独立とのこと。
- リポジトリはGitHub – ayushbits/udaan-post-editing

Audio Self-supervised Learning: A Survey [60.4]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理の分野で採用されている。
論文参考訳（メタデータ） (Wed, 2 Mar 2022 15:58:29 GMT)
- 音声分野でのSelf-supervised Learningをまとめたサーベイ。音声単体だけでなく音声＋Visionのようなマルチモーダルな手法もサーベイ対象となっている。