コンテンツへスキップ
- Text Generation with Deep Variational GAN [16.3]
モード崩壊問題に対処するために,GANベースのジェネリックフレームワークを提案する。 私たちのモデルは高い多様性で現実的なテキストを生成できることを示します。
論文 参考訳(メタデータ) (Tue, 27 Apr 2021 21:42:13 GMT)
- Improved and Efficient Text Adversarial Attacks using Target Information [34.5]
ブラックボックス設定における自然言語モデルの逆例の研究への関心が高まっている。 以前の高価な検索ではなく、解釈可能な学習によって単語のランク付けを学ぶ新しいアプローチが導入された。 このアプローチを使用する主な利点は、最先端のメソッドに匹敵する攻撃率を達成できるが、高速でクエリが少ないことである。
論文 参考訳(メタデータ) (Tue, 27 Apr 2021 21:25:55 GMT)
- Explaining in Style: Training a GAN to explain a classifier in StyleSpace [75.8]
本稿では,画像の意味的属性を説明するための生成モデルの学習法であるstylexを提案する。 StylExは、セマンティックとよく調和し、意味のある画像固有の説明を生成し、人間に解釈できる属性を見つけます。 その結果,この手法はセマンティックとよく一致し,意味のある画像特異的な説明を生成し,人間と解釈できる属性を見出した。
論文 参考訳(メタデータ) (Tue, 27 Apr 2021 17:57:19 GMT)- GANを使って人が理解可能な説明をしようという研究。サンプル画像が興味深い。
- PanGu-$\alpha$: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation [58.3]
PanGu-$alpha$という,最大2000億パラメータの大規模オートレグレッシブ言語モデルをトレーニングするプラクティスを紹介します。 PanGu-$alpha$はMindSporeの下で開発され、2048 Ascend 910 AIプロセッサのクラスタでトレーニングされている。
論文 参考訳(メタデータ) (Mon, 26 Apr 2021 06:59:36 GMT)- 中国の大規模モデル、様々な工夫によって得られた1.1TBのデータを使用。ベンチマークでも好成績とのこと。
- ハードウェアも内製?
- InfographicVQA [31.1]
InfographicVQAは、さまざまなインフォグラフィックコレクションと自然言語の質問と回答アノテーションを含む、新しいデータセットである。 基本推論と基本算術スキルを必要とする質問に重点を置いたデータセットをキュレートする。 データセット、コード、およびリーダーボードはhttp://docvqa.orgで入手できる。
論文 参考訳(メタデータ) (Mon, 26 Apr 2021 17:45:54 GMT)
- LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech [63.8]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。 近年では音声からのSSLも検討されている。 音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (Fri, 23 Apr 2021 08:27:09 GMT)
- Carbon Emissions and Large Neural Network Training [19.2]
我々は最近の大型モデルT5, Meena, GShard, Switch Transformer, GPT-3のエネルギー使用量と炭素フットプリントを算出する。 エネルギー効率とCO2排出量(CO2e)を改善するための次の機会を強調します。 MLの炭素フットプリントを減らすために、エネルギー使用量とCO2eはモデルを評価する上で重要な指標であるべきだと考えています。
論文 参考訳(メタデータ) (Thu, 22 Apr 2021 17:57:23 GMT)- 大規模モデル構築時の二酸化炭素排出量等を扱った論文。重要な視点であるとともに著者のGoogleで議論のあった話題でもある。
- Policy Fusion for Adaptive and Customizable Reinforcement Learning Agents [137.9]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。 事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。 これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (Wed, 21 Apr 2021 16:08:44 GMT)- 主としてゲーム(NPCの動き)を対象にPolicyの融合を取り扱った論文。多様性を生み出す上では重要な気がする。
- VideoGPT: Video Generation using VQ-VAE and Transformers [75.2]
VideoGPTは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。 VideoGPTはVQ-VAEを使用し3D畳み込みと軸方向の自己アテンションを用いて生のビデオの離散的な潜伏表現のサンプルを学習する。 我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 20 Apr 2021 17:58:03 GMT)- 映像データの自動生成、GANに迫る結果が出せたとのこと。
- https://wilson1yan.github.io/videogpt/index.html のデモが面白い。
- GooAQ: Open Question Answering with Diverse Answer Types [63.1]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。 このデータセットには500万の質問と300万の回答が含まれている。
論文 参考訳(メタデータ) (Sun, 18 Apr 2021 05:40:39 GMT)
- Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.9]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 19 Apr 2021 15:58:45 GMT)- 中国語の大規模ビデオ+言語データセット
- 中国語のデータセット構築も非常に盛んな印象がある。
- ProphetNet-X: Large-Scale Pre-training Models for English, Chinese, Multi-lingual, Dialog, and Code Generation [80.2]
ProphetNetは、事前トレーニングベースの自然言語生成方法です。 ProphetNetを他のドメインや言語に拡張し、ProphetNetファミリープレトレーニングモデルであるProphetNet-Xを提示する。 実験では,ProphetNet-Xモデルが10ベンチマークで新しい最先端性能を実現する。
論文 参考訳(メタデータ) (Fri, 16 Apr 2021 10:00:43 GMT)- ProphetNet 系のマルチリンガルモデル。ベンチマーク結果からはかなり強力と思われる。
- How to Train BERT with an Academic Budget [19.2]
大規模な言語モデルBERT は、NLP で普遍的に使用されていますが、事前トレーニングは、少数のよく資金提供された業界ラボでしか利用できない高級品とみなされます。 低レンジの12GBGPUを8台のみ使用しマスク付き言語モデルを24時間でプリトレーニングするレシピを提案する。
論文 参考訳(メタデータ) (Thu, 15 Apr 2021 18:17:12 GMT)- Nvidia Titan-V GPU×8でのBERTトレーニングも低コストではないもののかなり現実的。ただ、低コスト性という意味ではColabでと思わなくはない。