arXiv – ページ 177 – arXiv最新論文の紹介

Infographic QAデータセット

InfographicVQA [31.1]
InfographicVQAは、さまざまなインフォグラフィックコレクションと自然言語の質問と回答アノテーションを含む、新しいデータセットである。基本推論と基本算術スキルを必要とする質問に重点を置いたデータセットをキュレートする。データセット、コード、およびリーダーボードはhttp://docvqa.orgで入手できる。
論文参考訳（メタデータ） (Mon, 26 Apr 2021 17:45:54 GMT)
- かなり解くのが難しい問題に思えるデータセットだが、2020年のチャレンジではそれなりのスコアが出ているのが凄い。https://icdar2021.org/で行われるチャレンジ用。

音声を対象とした自己教師あり学習

LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech [63.8]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。近年では音声からのSSLも検討されている。音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文参考訳（メタデータ） (Fri, 23 Apr 2021 08:27:09 GMT)
- 音声を対象としたSSLの性能を測るベンチマーク。https://github.com/LeBenchmark/Interspeech2021
- 一式そろっていて便利そう。フランス語に対しては事前学習モデルも存在。https://huggingface.co/LeBenchmark

機械学習と二酸化炭素

Carbon Emissions and Large Neural Network Training [19.2]
我々は最近の大型モデルT5, Meena, GShard, Switch Transformer, GPT-3のエネルギー使用量と炭素フットプリントを算出する。エネルギー効率とCO2排出量(CO2e)を改善するための次の機会を強調します。 MLの炭素フットプリントを減らすために、エネルギー使用量とCO2eはモデルを評価する上で重要な指標であるべきだと考えています。
論文参考訳（メタデータ） (Thu, 22 Apr 2021 17:57:23 GMT)
- 大規模モデル構築時の二酸化炭素排出量等を扱った論文。重要な視点であるとともに著者のGoogleで議論のあった話題でもある。

ポリシー融合

Policy Fusion for Adaptive and Customizable Reinforcement Learning Agents [137.9]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文参考訳（メタデータ） (Wed, 21 Apr 2021 16:08:44 GMT)
- 主としてゲーム（NPCの動き）を対象にPolicyの融合を取り扱った論文。多様性を生み出す上では重要な気がする。

Video生成

VideoGPT: Video Generation using VQ-VAE and Transformers [75.2]
VideoGPTは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。 VideoGPTはVQ-VAEを使用し3D畳み込みと軸方向の自己アテンションを用いて生のビデオの離散的な潜伏表現のサンプルを学習する。我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
論文参考訳（メタデータ）参考訳（全文） (Tue, 20 Apr 2021 17:58:03 GMT)
- 映像データの自動生成、GANに迫る結果が出せたとのこと。
- https://wilson1yan.github.io/videogpt/index.html のデモが面白い。

大規模QAデータセット、大規模ビデオデータセット

GooAQ: Open Question Answering with Diverse Answer Types [63.1]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。このデータセットには500万の質問と300万の回答が含まれている。
論文参考訳（メタデータ） (Sun, 18 Apr 2021 05:40:39 GMT)
- Googleから抽出されたQAデータセット。規約的にこのようなことをやってよいのか疑問ではあるが、貴重なデータであることは確か。
- https://github.com/allenai/gooaq

Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.9]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文参考訳（メタデータ）参考訳（全文） (Mon, 19 Apr 2021 15:58:45 GMT)
- 中国語の大規模ビデオ＋言語データセット
- 中国語のデータセット構築も非常に盛んな印象がある。

マルチリンガルな大規模事前学習モデル、低コストなBERT

ProphetNet-X: Large-Scale Pre-training Models for English, Chinese, Multi-lingual, Dialog, and Code Generation [80.2]
ProphetNetは、事前トレーニングベースの自然言語生成方法です。 ProphetNetを他のドメインや言語に拡張し、ProphetNetファミリープレトレーニングモデルであるProphetNet-Xを提示する。実験では,ProphetNet-Xモデルが10ベンチマークで新しい最先端性能を実現する。
論文参考訳（メタデータ） (Fri, 16 Apr 2021 10:00:43 GMT)
- ProphetNet 系のマルチリンガルモデル。ベンチマーク結果からはかなり強力と思われる。

How to Train BERT with an Academic Budget [19.2]
大規模な言語モデルBERT は、NLP で普遍的に使用されていますが、事前トレーニングは、少数のよく資金提供された業界ラボでしか利用できない高級品とみなされます。低レンジの12GBGPUを8台のみ使用しマスク付き言語モデルを24時間でプリトレーニングするレシピを提案する。
論文参考訳（メタデータ） (Thu, 15 Apr 2021 18:17:12 GMT)
- Nvidia Titan-V GPU×8でのBERTトレーニングも低コストではないもののかなり現実的。ただ、低コスト性という意味ではColabでと思わなくはない。

データセット（要約、マルチリンガルベンチマーク）、シミュレーションtoリアル

XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.8]
本稿では,言語間移動学習の現状を解析する。 XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文参考訳（メタデータ） (Thu, 15 Apr 2021 12:26:12 GMT)
- マルチリンガルなベンチマークXTREMEの拡張版。現在、XTREMEの上位は中国の企業が多い。日本の企業にも頑張ってほしいところ。

MS2: Multi-Document Summarization of Medical Studies [11.4]
MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。早期成果を期待して,BARTに基づく要約システムを実験した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 15 Apr 2021 16:09:21 GMT)
- 要約用のデータセット。マルチドキュメントで科学ドメインと貴重なものだと思う。
- https://github.com/allenai/ms2

Auto-Tuned Sim-to-Real Transfer [143.4]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文参考訳（メタデータ） (Thu, 15 Apr 2021 17:59:55 GMT)
- シミュレーションと現実をつなぐ研究。強化学習でよく用いられるシミュレーション環境での学習結果を現実環境に適用するための良いアプローチを提案。
- Training-serving skewも自動検知、自動修正できるようになったりしないのかなと思う最近。ドメインシフト検知等の研究は多いのでどうにかなる時代が来るかもと期待。

Active Learningの公平性、セレブヘアー

Can Active Learning Preemptively Mitigate Fairness Issues? [66.8]
データセットバイアスは、機械学習における不公平な原因の1つです。不確実性に基づくActive Learningで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。また、勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。フェアネスの問題に対処しながら、彼らのインタラクションは、調査したほとんどのベンチマークやメトリクスの結果をさらに改善します。
論文参考訳（メタデータ） (Wed, 14 Apr 2021 14:20:22 GMT)
- 能動学習における公平性考慮を扱った論文。重要な観点だと思う。

CelebHair: A New Large-Scale Dataset for Hairstyle Recommendation based on CelebA [4.1]
本稿では,セレブの顔属性データセットcelebaに基づいて,ヘアスタイル推薦のための新しいデータセットcelebhairを提案する。私たちのデータセットは、CelebAの美容関連顔の属性と共に顔画像の大半を継承しました。
論文参考訳（メタデータ） (Wed, 14 Apr 2021 14:26:37 GMT)
- フェアを取り上げたのでヘアーを取り上げてみた。はおいておいてヘアスタイル推薦は実用的に有用な問題だとは思う。

画像＋音声の自己教師あり物体検出、マルチモーダルなQA

Self-supervised object detection from audio-visual correspondence [101.5]
我々は、教師なしで物体検出器を学習する問題に取り組む。画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。物体検出と音源定位という課題において、従来の教師なし・弱教師付き検出器よりも優れる。我々はまた、この検出器を1つの擬似クラスごとに1つのラベルで正解クラスに合わせることができ、飛行機や猫のような計器を超える一般的な物体を検出する方法を学ぶことができることを示す。
論文参考訳（メタデータ） (Tue, 13 Apr 2021 17:59:03 GMT)
- 映像＋音声を用いる自己教師あり学習。なんとなく人間に近づいていっているような感がある。

MultiModalQA: Complex Question Answering over Text, Tables and Images [52.3]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文参考訳（メタデータ） (Tue, 13 Apr 2021 09:14:28 GMT)
- マルチモーダルなQAデータセット。約3万サンプル、36%はクロスモーダルな推論が必要な難しいデータ。現時点では機械に比べ人間のパフォーマンスは圧倒的に高い。https://allenai.github.io/multimodalqa/でデータを公開してくれるとのこと。