Video生成

  • VideoGPT: Video Generation using VQ-VAE and Transformers [75.2]
    VideoGPTは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。 VideoGPTはVQ-VAEを使用し3D畳み込みと軸方向の自己アテンションを用いて生のビデオの離散的な潜伏表現のサンプルを学習する。 我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
    論文  参考訳(メタデータ)  参考訳(全文) (Tue, 20 Apr 2021 17:58:03 GMT)
    • 映像データの自動生成、GANに迫る結果が出せたとのこと。
    • https://wilson1yan.github.io/videogpt/index.html のデモが面白い。

大規模QAデータセット、大規模ビデオデータセット

  • GooAQ: Open Question Answering with Diverse Answer Types [63.1]
    さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。 このデータセットには500万の質問と300万の回答が含まれている。
    論文  参考訳(メタデータ)   (Sun, 18 Apr 2021 05:40:39 GMT)
    • Googleから抽出されたQAデータセット。規約的にこのようなことをやってよいのか疑問ではあるが、貴重なデータであることは確か。
    • https://github.com/allenai/gooaq
  • Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.9]
    VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 19 Apr 2021 15:58:45 GMT)
    • 中国語の大規模ビデオ+言語データセット
    • 中国語のデータセット構築も非常に盛んな印象がある。

マルチリンガルな大規模事前学習モデル、低コストなBERT

  • ProphetNet-X: Large-Scale Pre-training Models for English, Chinese, Multi-lingual, Dialog, and Code Generation [80.2]
    ProphetNetは、事前トレーニングベースの自然言語生成方法です。 ProphetNetを他のドメインや言語に拡張し、ProphetNetファミリープレトレーニングモデルであるProphetNet-Xを提示する。 実験では,ProphetNet-Xモデルが10ベンチマークで新しい最先端性能を実現する。
    論文  参考訳(メタデータ)   (Fri, 16 Apr 2021 10:00:43 GMT)
    • ProphetNet 系のマルチリンガルモデル。ベンチマーク結果からはかなり強力と思われる。
  • How to Train BERT with an Academic Budget [19.2]
    大規模な言語モデルBERT は、NLP で普遍的に使用されていますが、事前トレーニングは、少数のよく資金提供された業界ラボでしか利用できない高級品とみなされます。 低レンジの12GBGPUを8台のみ使用しマスク付き言語モデルを24時間でプリトレーニングするレシピを提案する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 18:17:12 GMT)
    •  Nvidia Titan-V GPU×8でのBERTトレーニングも低コストではないもののかなり現実的。ただ、低コスト性という意味ではColabでと思わなくはない。

データセット(要約、マルチリンガルベンチマーク)、シミュレーションtoリアル

  • XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.8]
    本稿では,言語間移動学習の現状を解析する。 XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 12:26:12 GMT)
    • マルチリンガルなベンチマークXTREMEの拡張版。現在、XTREMEの上位は中国の企業が多い。日本の企業にも頑張ってほしいところ。
  • MS2: Multi-Document Summarization of Medical Studies [11.4]
    MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。 このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。 早期成果を期待して,BARTに基づく要約システムを実験した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 15 Apr 2021 16:09:21 GMT)
  • Auto-Tuned Sim-to-Real Transfer [143.4]
    シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。 ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。 実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 17:59:55 GMT)
    • シミュレーションと現実をつなぐ研究。強化学習でよく用いられるシミュレーション環境での学習結果を現実環境に適用するための良いアプローチを提案。
    • Training-serving skewも自動検知、自動修正できるようになったりしないのかなと思う最近。ドメインシフト検知等の研究は多いのでどうにかなる時代が来るかもと期待。

Active Learningの公平性、セレブヘアー

  • Can Active Learning Preemptively Mitigate Fairness Issues? [66.8]
    データセットバイアスは、機械学習における不公平な原因の1つです。 不確実性に基づくActive Learningで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。 また、勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。フェアネスの問題に対処しながら、彼らのインタラクションは、調査したほとんどのベンチマークやメトリクスの結果をさらに改善します。
    論文  参考訳(メタデータ)   (Wed, 14 Apr 2021 14:20:22 GMT)
    • 能動学習における公平性考慮を扱った論文。重要な観点だと思う。
  • CelebHair: A New Large-Scale Dataset for Hairstyle Recommendation based on CelebA [4.1]
    本稿では,セレブの顔属性データセットcelebaに基づいて,ヘアスタイル推薦のための新しいデータセットcelebhairを提案する。 私たちのデータセットは、CelebAの美容関連顔の属性と共に顔画像の大半を継承しました。
    論文  参考訳(メタデータ)   (Wed, 14 Apr 2021 14:26:37 GMT)
    • フェアを取り上げたのでヘアーを取り上げてみた。はおいておいてヘアスタイル推薦は実用的に有用な問題だとは思う。

画像+音声の自己教師あり物体検出、マルチモーダルなQA

  • Self-supervised object detection from audio-visual correspondence [101.5]
    我々は、教師なしで物体検出器を学習する問題に取り組む。 画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。物体検出と音源定位という課題において、従来の教師なし・弱教師付き検出器よりも優れる。 我々はまた、この検出器を1つの擬似クラスごとに1つのラベルで正解クラスに合わせることができ、飛行機や猫のような計器を超える一般的な物体を検出する方法を学ぶことができることを示す。
    論文  参考訳(メタデータ)   (Tue, 13 Apr 2021 17:59:03 GMT)
    • 映像+音声を用いる自己教師あり学習。なんとなく人間に近づいていっているような感がある。
  • MultiModalQA: Complex Question Answering over Text, Tables and Images [52.3]
    テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。 大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。 次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
    論文  参考訳(メタデータ)   (Tue, 13 Apr 2021 09:14:28 GMT)
    • マルチモーダルなQAデータセット。約3万サンプル、36%はクロスモーダルな推論が必要な難しいデータ。現時点では機械に比べ人間のパフォーマンスは圧倒的に高い。https://allenai.github.io/multimodalqa/でデータを公開してくれるとのこと。

効率的なGCN、ビームサーチを超えるサーチ、感情を考慮した翻訳

  • Towards Efficient Graph Convolutional Networks for Point Cloud Handling [181.6]
    ポイントクラウド上で学習するためのグラフ畳み込みネットワーク(GCN)の計算効率の向上を目指す。 1) 3次元表現の局所的幾何学的構造情報はKNN探索による近傍特徴の収集に依存するGCN全体にわたって円滑に伝播する。2)グラフ特徴集合の順序をシャッフルし、MLPが等価あるいは類似の複合演算に導く。これらの結果に基づき、GCNの計算手順を最適化する。最適化されたネットワークは計算の複雑さを減らし、メモリ消費を減らし、予測速度を加速し、ポイントクラウド上での学習の精度を同等に保った。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 12 Apr 2021 17:59:16 GMT)
    • GCNの高速化の話。結果はpoint cloudの性質による(?)
  • Machine Translation Decoding beyond Beam Search [43.3]
    ビームサーチは自動回帰機械翻訳モデルの復号化手法である。ビームサーチは自動回帰機械翻訳モデルの復号化手法である。 BLEUの観点で一貫した改善をもたらすが、それは高いモデル確率で出力を見つけることだけに関係している。 我々の目標は、ビームサーチがより強力な計量駆動サーチ技術に置き換えられるかどうかを確かめることである。 モンテカルロ木探索(mcts)に基づく手法を導入し,その競合性を示す。
    論文  参考訳(メタデータ)   (Mon, 12 Apr 2021 10:28:17 GMT)
    • 翻訳タスク、文章生成タスクなどでよく用いられるビームサーチを改善できるかを検討した論文。DeepMindらしく(?)広範な比較があり参考になる。BLEUのみをメトリクスにしていないのも今風。
  • Sentiment-based Candidate Selection for NMT [2.6]
    本稿では,機械翻訳(mt)候補選択プロセスに自動感情スコアを組み込むデコーダ側手法を提案する。 我々は、英語とスペイン語の感情分類器を訓練し、ビームサーチによるベースラインMTモデルによって生成されたn-best候補を用いて、原文の感情スコアと翻訳の絶対差を最小化する候補を選択する。 人間の評価結果から口語的で感情的な原文をより正確に翻訳することができた。
    論文  参考訳(メタデータ)   (Sat, 10 Apr 2021 19:01:52 GMT)
    • 感情分類器を併用した機械翻訳の論文。このようなアプローチは面白い。

AutoMLの評価、トレーディングデータの取り扱い

  • Model LineUpper: Supporting Interactive Model Comparison at Multiple Levels for AutoML [29.0]
    現在のAutoMLシステムでは、選択はパフォーマンスメトリックによってのみサポートされる。 複数のXAI(Explainable AI)と可視化技術を組み合わせることで、AutoMLのインタラクティブなモデル比較を支援するツールを開発しています。
    論文  参考訳(メタデータ)   (Fri, 9 Apr 2021 14:06:13 GMT)
    • 機械的なメトリクスだけでなく、XAI的な視点を追加したツールが重要との話。その通りと思う一方で人への依存性は弱点にもなりうるのでユースケース次第という印象。
  • CLVSA: A Convolutional LSTM Based Variational Sequence-to-Sequence Model with Attention for Predicting Trends of Financial Markets [12.0]
    生の金融トレーディングデータの特徴を変動的に捉えるハイブリッドモデルであるCLVSAを提案する。CLVSAは確率的リカレント・ネットワーク、シーケンス・ツー・シーケンス・アーキテクチャ、自己・内部アテンション機構、畳み込みLSTMユニットから構成されるハイブリッドモデルであり、生の金融取引データにおける変動基盤の特徴を捉える。 実験の結果、近似的な後段処理の導入により、kullback-leibler ダイバージェンスに基づく正規化を活用し、過学習を防止することができた。
    論文  参考訳(メタデータ)   (Thu, 8 Apr 2021 20:31:04 GMT)
    • 金融取引データの特徴を捉えるDeep Learning系モデルの話。堅牢にリターンを得たという実験結果はほんまかいな?と思うが、興味深い結果ではある。

手書き文字の生成、データ拡張

  • Handwriting Transformers [98.4]
    本稿では, トランスフォーマーを用いた手書きテキスト画像生成手法であるHWTを提案する。HWTは,自己アテンション機構を用いて,スタイル例内の長短範囲関係をキャプチャし,グローバルなスタイルパターンとローカルなスタイルパターンの両方を符号化する。提案したHWTは, 自己認識機構を用いて, スタイルの例における長短距離関係をキャプチャする。 提案するHWTは,現実的な手書きテキスト画像を生成する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 8 Apr 2021 17:59:43 GMT)
    • Transformerを用いた手書きテキストの生成。直感的にはシーケンス的な情報も重要なのでこの構造は有効なのだと思う。PDFにあるサンプルが興味深い。
  • InAugment: Improving Classifiers via Internal Augmentation [14.3]
    本稿では,画像内部統計を利用した新しい拡張操作であるinaugmentを提案する。 キーとなるアイデアは、イメージ自体からパッチをコピーし、拡張操作を適用し、それらを同じイメージ上のランダムな位置にペーストすることだ。imagenetデータセットにおけるresnet50 と efficientnet-b3 top-1 の精度を,事前拡張法と比較して向上させた。 最後に,InAugmentを用いた畳み込みニューラルネットワークのトレーニングにより,モデルの精度と信頼性が向上するだけでなく,分布外画像の性能が向上することが示唆された。
    論文  参考訳(メタデータ)   (Thu, 8 Apr 2021 15:37:21 GMT)
    • データ拡張の話。この手のData augumentationは精度向上テクニックとして有効なこともあるという印象だが、論文中の様々な手法との比較が参考になる。コードはgithubに公開予定とのこと。

引用関係を用いた要約、 高解像度航空写真のシーン認識データセット

  • Enhancing Scientific Papers Summarization with Citation Graph [78.7]
    論文要約を引用グラフを利用して再定義し,引用グラフに基づく要約モデルCGSumを提案する。異なる領域の141Kの研究論文と661Kの引用関係を含む新たな科学論文要約データセットSemantic Scholar Network (SSN)を構築した。 単純なアーキテクチャであっても, 事前学習モデルと比較して性能が向上することが示された。論文の内容をよりよく理解し、高品質な要約を生成するために引用グラフが重要であることも示唆した。
    論文  参考訳(メタデータ)   (Wed, 7 Apr 2021 11:13:35 GMT)
    • 単純な文書要約ではなく文章以外の情報(ここでは引用関係)を考慮した要約。文書間の関係考慮は現実問題でも重要。データセット、コードも公開してくれるとのこと。
  • MultiScene: A Large-scale Dataset and Benchmark for Multi-scene Recognition in Single Aerial Images [17.8]
    我々は10万の高解像度空中画像からなるMultiSceneと呼ばれる大規模なデータセットを作成します。  このようなイメージを手動でラベル付けするのは極めて困難なため、クラウドソーシングプラットフォーム(例えばOpenStreetMap (OSM))から低コストなアノテーションを利用した。ノイズに対応するため、14,000枚の画像を検査し、そのシーンラベルを補正し、MultiScene-Cleanというクリーンな注釈付き画像のサブセットを生成した。これにより、クリーンデータを用いたマルチシーン認識のためのディープネットワークの開発と評価が可能となる。
    論文  参考訳(メタデータ)   (Wed, 7 Apr 2021 01:09:12 GMT)
    • 大規模データセットということで採用。ノイズへの対応は苦労が多そう。