staka – ページ 177 – arXiv最新論文の紹介

GANを使ったXAI

Explaining in Style: Training a GAN to explain a classifier in StyleSpace [75.8]
本稿では,画像の意味的属性を説明するための生成モデルの学習法であるstylexを提案する。 StylExは、セマンティックとよく調和し、意味のある画像固有の説明を生成し、人間に解釈できる属性を見つけます。その結果,この手法はセマンティックとよく一致し,意味のある画像特異的な説明を生成し,人間と解釈できる属性を見出した。
論文参考訳（メタデータ） (Tue, 27 Apr 2021 17:57:19 GMT)
- GANを使って人が理解可能な説明をしようという研究。サンプル画像が興味深い。

大規模モデルPanGu

PanGu-$\alpha$: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation [58.3]
PanGu-$alpha$という,最大2000億パラメータの大規模オートレグレッシブ言語モデルをトレーニングするプラクティスを紹介します。 PanGu-$alpha$はMindSporeの下で開発され、2048 Ascend 910 AIプロセッサのクラスタでトレーニングされている。
論文参考訳（メタデータ） (Mon, 26 Apr 2021 06:59:36 GMT)
- 中国の大規模モデル、様々な工夫によって得られた1.1TBのデータを使用。ベンチマークでも好成績とのこと。
- ハードウェアも内製？

Infographic QAデータセット

InfographicVQA [31.1]
InfographicVQAは、さまざまなインフォグラフィックコレクションと自然言語の質問と回答アノテーションを含む、新しいデータセットである。基本推論と基本算術スキルを必要とする質問に重点を置いたデータセットをキュレートする。データセット、コード、およびリーダーボードはhttp://docvqa.orgで入手できる。
論文参考訳（メタデータ） (Mon, 26 Apr 2021 17:45:54 GMT)
- かなり解くのが難しい問題に思えるデータセットだが、2020年のチャレンジではそれなりのスコアが出ているのが凄い。https://icdar2021.org/で行われるチャレンジ用。

音声を対象とした自己教師あり学習

LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech [63.8]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。近年では音声からのSSLも検討されている。音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文参考訳（メタデータ） (Fri, 23 Apr 2021 08:27:09 GMT)
- 音声を対象としたSSLの性能を測るベンチマーク。https://github.com/LeBenchmark/Interspeech2021
- 一式そろっていて便利そう。フランス語に対しては事前学習モデルも存在。https://huggingface.co/LeBenchmark

機械学習と二酸化炭素

Carbon Emissions and Large Neural Network Training [19.2]
我々は最近の大型モデルT5, Meena, GShard, Switch Transformer, GPT-3のエネルギー使用量と炭素フットプリントを算出する。エネルギー効率とCO2排出量(CO2e)を改善するための次の機会を強調します。 MLの炭素フットプリントを減らすために、エネルギー使用量とCO2eはモデルを評価する上で重要な指標であるべきだと考えています。
論文参考訳（メタデータ） (Thu, 22 Apr 2021 17:57:23 GMT)
- 大規模モデル構築時の二酸化炭素排出量等を扱った論文。重要な視点であるとともに著者のGoogleで議論のあった話題でもある。

ポリシー融合

Policy Fusion for Adaptive and Customizable Reinforcement Learning Agents [137.9]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文参考訳（メタデータ） (Wed, 21 Apr 2021 16:08:44 GMT)
- 主としてゲーム（NPCの動き）を対象にPolicyの融合を取り扱った論文。多様性を生み出す上では重要な気がする。

Video生成

VideoGPT: Video Generation using VQ-VAE and Transformers [75.2]
VideoGPTは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。 VideoGPTはVQ-VAEを使用し3D畳み込みと軸方向の自己アテンションを用いて生のビデオの離散的な潜伏表現のサンプルを学習する。我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
論文参考訳（メタデータ）参考訳（全文） (Tue, 20 Apr 2021 17:58:03 GMT)
- 映像データの自動生成、GANに迫る結果が出せたとのこと。
- https://wilson1yan.github.io/videogpt/index.html のデモが面白い。

大規模QAデータセット、大規模ビデオデータセット

GooAQ: Open Question Answering with Diverse Answer Types [63.1]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。このデータセットには500万の質問と300万の回答が含まれている。
論文参考訳（メタデータ） (Sun, 18 Apr 2021 05:40:39 GMT)
- Googleから抽出されたQAデータセット。規約的にこのようなことをやってよいのか疑問ではあるが、貴重なデータであることは確か。
- https://github.com/allenai/gooaq

Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.9]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文参考訳（メタデータ）参考訳（全文） (Mon, 19 Apr 2021 15:58:45 GMT)
- 中国語の大規模ビデオ＋言語データセット
- 中国語のデータセット構築も非常に盛んな印象がある。

マルチリンガルな大規模事前学習モデル、低コストなBERT

ProphetNet-X: Large-Scale Pre-training Models for English, Chinese, Multi-lingual, Dialog, and Code Generation [80.2]
ProphetNetは、事前トレーニングベースの自然言語生成方法です。 ProphetNetを他のドメインや言語に拡張し、ProphetNetファミリープレトレーニングモデルであるProphetNet-Xを提示する。実験では,ProphetNet-Xモデルが10ベンチマークで新しい最先端性能を実現する。
論文参考訳（メタデータ） (Fri, 16 Apr 2021 10:00:43 GMT)
- ProphetNet 系のマルチリンガルモデル。ベンチマーク結果からはかなり強力と思われる。

How to Train BERT with an Academic Budget [19.2]
大規模な言語モデルBERT は、NLP で普遍的に使用されていますが、事前トレーニングは、少数のよく資金提供された業界ラボでしか利用できない高級品とみなされます。低レンジの12GBGPUを8台のみ使用しマスク付き言語モデルを24時間でプリトレーニングするレシピを提案する。
論文参考訳（メタデータ） (Thu, 15 Apr 2021 18:17:12 GMT)
- Nvidia Titan-V GPU×8でのBERTトレーニングも低コストではないもののかなり現実的。ただ、低コスト性という意味ではColabでと思わなくはない。

データセット（要約、マルチリンガルベンチマーク）、シミュレーションtoリアル

XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.8]
本稿では,言語間移動学習の現状を解析する。 XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文参考訳（メタデータ） (Thu, 15 Apr 2021 12:26:12 GMT)
- マルチリンガルなベンチマークXTREMEの拡張版。現在、XTREMEの上位は中国の企業が多い。日本の企業にも頑張ってほしいところ。

MS2: Multi-Document Summarization of Medical Studies [11.4]
MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。早期成果を期待して,BARTに基づく要約システムを実験した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 15 Apr 2021 16:09:21 GMT)
- 要約用のデータセット。マルチドキュメントで科学ドメインと貴重なものだと思う。
- https://github.com/allenai/ms2

Auto-Tuned Sim-to-Real Transfer [143.4]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文参考訳（メタデータ） (Thu, 15 Apr 2021 17:59:55 GMT)
- シミュレーションと現実をつなぐ研究。強化学習でよく用いられるシミュレーション環境での学習結果を現実環境に適用するための良いアプローチを提案。
- Training-serving skewも自動検知、自動修正できるようになったりしないのかなと思う最近。ドメインシフト検知等の研究は多いのでどうにかなる時代が来るかもと期待。