2022年4月12日 – arXiv最新論文の紹介

VQGAN & Transformerによるビデオ生成

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.6]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 7 Apr 2022 17:59:02 GMT)
- 長編ビデオの合成。プロジェクトサイトはLong Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer (songweige.github.io)

Can language models learn from explanations in context? [21.7]
大規模言語モデルは、いくつかのコンテキスト内例に適応することで、新しいタスクを実行することができる。人間にとって、例からの素早い学習は、例とタスク原則を結びつける説明の恩恵を受けることができる。少数例の説明によって言語モデルがより効果的に適応できるかどうかを考察する。
論文参考訳（メタデータ） (Tue, 5 Apr 2022 16:33:44 GMT)
- few-shot設定で例示される内容に説明を付与すると性能を向上可能という論文。大規模モデルにおいて効果的とのこと。近年の大規模モデルが例と説明の何らかの対応付けができる規模になっているのだとすると面白い。

Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.9]
トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
論文参考訳（メタデータ） (Thu, 31 Mar 2022 18:06:28 GMT)
- 学習用のデータセットに攻撃をすることで、プライバシーに関連するデータを漏洩させることができるとの報告。先行研究ではモデルの保護は困難とのこと。
- 「Untrusted data is not only a threat to integrity.」「Large neural networks are trained on massive datasets which are hard to curate.」ですよね・・・