機械学習と二酸化炭素

  • Carbon Emissions and Large Neural Network Training [19.2]
    我々は最近の大型モデルT5, Meena, GShard, Switch Transformer, GPT-3のエネルギー使用量と炭素フットプリントを算出する。 エネルギー効率とCO2排出量(CO2e)を改善するための次の機会を強調します。 MLの炭素フットプリントを減らすために、エネルギー使用量とCO2eはモデルを評価する上で重要な指標であるべきだと考えています。
    論文  参考訳(メタデータ)   (Thu, 22 Apr 2021 17:57:23 GMT)
    • 大規模モデル構築時の二酸化炭素排出量等を扱った論文。重要な視点であるとともに著者のGoogleで議論のあった話題でもある。

ポリシー融合

  • Policy Fusion for Adaptive and Customizable Reinforcement Learning Agents [137.9]
    異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。 事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。 これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
    論文  参考訳(メタデータ)   (Wed, 21 Apr 2021 16:08:44 GMT)
    • 主としてゲーム(NPCの動き)を対象にPolicyの融合を取り扱った論文。多様性を生み出す上では重要な気がする。

Video生成

  • VideoGPT: Video Generation using VQ-VAE and Transformers [75.2]
    VideoGPTは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。 VideoGPTはVQ-VAEを使用し3D畳み込みと軸方向の自己アテンションを用いて生のビデオの離散的な潜伏表現のサンプルを学習する。 我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
    論文  参考訳(メタデータ)  参考訳(全文) (Tue, 20 Apr 2021 17:58:03 GMT)
    • 映像データの自動生成、GANに迫る結果が出せたとのこと。
    • https://wilson1yan.github.io/videogpt/index.html のデモが面白い。

大規模QAデータセット、大規模ビデオデータセット

  • GooAQ: Open Question Answering with Diverse Answer Types [63.1]
    さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。 このデータセットには500万の質問と300万の回答が含まれている。
    論文  参考訳(メタデータ)   (Sun, 18 Apr 2021 05:40:39 GMT)
    • Googleから抽出されたQAデータセット。規約的にこのようなことをやってよいのか疑問ではあるが、貴重なデータであることは確か。
    • https://github.com/allenai/gooaq
  • Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.9]
    VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 19 Apr 2021 15:58:45 GMT)
    • 中国語の大規模ビデオ+言語データセット
    • 中国語のデータセット構築も非常に盛んな印象がある。

マルチリンガルな大規模事前学習モデル、低コストなBERT

  • ProphetNet-X: Large-Scale Pre-training Models for English, Chinese, Multi-lingual, Dialog, and Code Generation [80.2]
    ProphetNetは、事前トレーニングベースの自然言語生成方法です。 ProphetNetを他のドメインや言語に拡張し、ProphetNetファミリープレトレーニングモデルであるProphetNet-Xを提示する。 実験では,ProphetNet-Xモデルが10ベンチマークで新しい最先端性能を実現する。
    論文  参考訳(メタデータ)   (Fri, 16 Apr 2021 10:00:43 GMT)
    • ProphetNet 系のマルチリンガルモデル。ベンチマーク結果からはかなり強力と思われる。
  • How to Train BERT with an Academic Budget [19.2]
    大規模な言語モデルBERT は、NLP で普遍的に使用されていますが、事前トレーニングは、少数のよく資金提供された業界ラボでしか利用できない高級品とみなされます。 低レンジの12GBGPUを8台のみ使用しマスク付き言語モデルを24時間でプリトレーニングするレシピを提案する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 18:17:12 GMT)
    •  Nvidia Titan-V GPU×8でのBERTトレーニングも低コストではないもののかなり現実的。ただ、低コスト性という意味ではColabでと思わなくはない。

データセット(要約、マルチリンガルベンチマーク)、シミュレーションtoリアル

  • XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.8]
    本稿では,言語間移動学習の現状を解析する。 XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 12:26:12 GMT)
    • マルチリンガルなベンチマークXTREMEの拡張版。現在、XTREMEの上位は中国の企業が多い。日本の企業にも頑張ってほしいところ。
  • MS2: Multi-Document Summarization of Medical Studies [11.4]
    MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。 このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。 早期成果を期待して,BARTに基づく要約システムを実験した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 15 Apr 2021 16:09:21 GMT)
  • Auto-Tuned Sim-to-Real Transfer [143.4]
    シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。 ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。 実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 17:59:55 GMT)
    • シミュレーションと現実をつなぐ研究。強化学習でよく用いられるシミュレーション環境での学習結果を現実環境に適用するための良いアプローチを提案。
    • Training-serving skewも自動検知、自動修正できるようになったりしないのかなと思う最近。ドメインシフト検知等の研究は多いのでどうにかなる時代が来るかもと期待。

Active Learningの公平性、セレブヘアー

  • Can Active Learning Preemptively Mitigate Fairness Issues? [66.8]
    データセットバイアスは、機械学習における不公平な原因の1つです。 不確実性に基づくActive Learningで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。 また、勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。フェアネスの問題に対処しながら、彼らのインタラクションは、調査したほとんどのベンチマークやメトリクスの結果をさらに改善します。
    論文  参考訳(メタデータ)   (Wed, 14 Apr 2021 14:20:22 GMT)
    • 能動学習における公平性考慮を扱った論文。重要な観点だと思う。
  • CelebHair: A New Large-Scale Dataset for Hairstyle Recommendation based on CelebA [4.1]
    本稿では,セレブの顔属性データセットcelebaに基づいて,ヘアスタイル推薦のための新しいデータセットcelebhairを提案する。 私たちのデータセットは、CelebAの美容関連顔の属性と共に顔画像の大半を継承しました。
    論文  参考訳(メタデータ)   (Wed, 14 Apr 2021 14:26:37 GMT)
    • フェアを取り上げたのでヘアーを取り上げてみた。はおいておいてヘアスタイル推薦は実用的に有用な問題だとは思う。

画像+音声の自己教師あり物体検出、マルチモーダルなQA

  • Self-supervised object detection from audio-visual correspondence [101.5]
    我々は、教師なしで物体検出器を学習する問題に取り組む。 画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。物体検出と音源定位という課題において、従来の教師なし・弱教師付き検出器よりも優れる。 我々はまた、この検出器を1つの擬似クラスごとに1つのラベルで正解クラスに合わせることができ、飛行機や猫のような計器を超える一般的な物体を検出する方法を学ぶことができることを示す。
    論文  参考訳(メタデータ)   (Tue, 13 Apr 2021 17:59:03 GMT)
    • 映像+音声を用いる自己教師あり学習。なんとなく人間に近づいていっているような感がある。
  • MultiModalQA: Complex Question Answering over Text, Tables and Images [52.3]
    テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。 大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。 次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
    論文  参考訳(メタデータ)   (Tue, 13 Apr 2021 09:14:28 GMT)
    • マルチモーダルなQAデータセット。約3万サンプル、36%はクロスモーダルな推論が必要な難しいデータ。現時点では機械に比べ人間のパフォーマンスは圧倒的に高い。https://allenai.github.io/multimodalqa/でデータを公開してくれるとのこと。

効率的なGCN、ビームサーチを超えるサーチ、感情を考慮した翻訳

  • Towards Efficient Graph Convolutional Networks for Point Cloud Handling [181.6]
    ポイントクラウド上で学習するためのグラフ畳み込みネットワーク(GCN)の計算効率の向上を目指す。 1) 3次元表現の局所的幾何学的構造情報はKNN探索による近傍特徴の収集に依存するGCN全体にわたって円滑に伝播する。2)グラフ特徴集合の順序をシャッフルし、MLPが等価あるいは類似の複合演算に導く。これらの結果に基づき、GCNの計算手順を最適化する。最適化されたネットワークは計算の複雑さを減らし、メモリ消費を減らし、予測速度を加速し、ポイントクラウド上での学習の精度を同等に保った。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 12 Apr 2021 17:59:16 GMT)
    • GCNの高速化の話。結果はpoint cloudの性質による(?)
  • Machine Translation Decoding beyond Beam Search [43.3]
    ビームサーチは自動回帰機械翻訳モデルの復号化手法である。ビームサーチは自動回帰機械翻訳モデルの復号化手法である。 BLEUの観点で一貫した改善をもたらすが、それは高いモデル確率で出力を見つけることだけに関係している。 我々の目標は、ビームサーチがより強力な計量駆動サーチ技術に置き換えられるかどうかを確かめることである。 モンテカルロ木探索(mcts)に基づく手法を導入し,その競合性を示す。
    論文  参考訳(メタデータ)   (Mon, 12 Apr 2021 10:28:17 GMT)
    • 翻訳タスク、文章生成タスクなどでよく用いられるビームサーチを改善できるかを検討した論文。DeepMindらしく(?)広範な比較があり参考になる。BLEUのみをメトリクスにしていないのも今風。
  • Sentiment-based Candidate Selection for NMT [2.6]
    本稿では,機械翻訳(mt)候補選択プロセスに自動感情スコアを組み込むデコーダ側手法を提案する。 我々は、英語とスペイン語の感情分類器を訓練し、ビームサーチによるベースラインMTモデルによって生成されたn-best候補を用いて、原文の感情スコアと翻訳の絶対差を最小化する候補を選択する。 人間の評価結果から口語的で感情的な原文をより正確に翻訳することができた。
    論文  参考訳(メタデータ)   (Sat, 10 Apr 2021 19:01:52 GMT)
    • 感情分類器を併用した機械翻訳の論文。このようなアプローチは面白い。

AutoMLの評価、トレーディングデータの取り扱い

  • Model LineUpper: Supporting Interactive Model Comparison at Multiple Levels for AutoML [29.0]
    現在のAutoMLシステムでは、選択はパフォーマンスメトリックによってのみサポートされる。 複数のXAI(Explainable AI)と可視化技術を組み合わせることで、AutoMLのインタラクティブなモデル比較を支援するツールを開発しています。
    論文  参考訳(メタデータ)   (Fri, 9 Apr 2021 14:06:13 GMT)
    • 機械的なメトリクスだけでなく、XAI的な視点を追加したツールが重要との話。その通りと思う一方で人への依存性は弱点にもなりうるのでユースケース次第という印象。
  • CLVSA: A Convolutional LSTM Based Variational Sequence-to-Sequence Model with Attention for Predicting Trends of Financial Markets [12.0]
    生の金融トレーディングデータの特徴を変動的に捉えるハイブリッドモデルであるCLVSAを提案する。CLVSAは確率的リカレント・ネットワーク、シーケンス・ツー・シーケンス・アーキテクチャ、自己・内部アテンション機構、畳み込みLSTMユニットから構成されるハイブリッドモデルであり、生の金融取引データにおける変動基盤の特徴を捉える。 実験の結果、近似的な後段処理の導入により、kullback-leibler ダイバージェンスに基づく正規化を活用し、過学習を防止することができた。
    論文  参考訳(メタデータ)   (Thu, 8 Apr 2021 20:31:04 GMT)
    • 金融取引データの特徴を捉えるDeep Learning系モデルの話。堅牢にリターンを得たという実験結果はほんまかいな?と思うが、興味深い結果ではある。