動画生成GODIVA

  • GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions [45.6]
    テキストから動画を自動レグレッシブに生成できるオープンドメインのテキスト・トゥ・ビデオプリトレーニングモデル「GODIVA」を提案する。 Howto100Mは、1億1600万以上のテキストビデオペアを含む大規模なテキストビデオデータセットです。 実験により、GODIVAは下流のビデオ生成タスクでファインチューニングできるだけでなく、初見のテキストでも優れたゼロショット機能を持つことが示された。
    論文  参考訳(メタデータ)   (Fri, 30 Apr 2021 07:40:35 GMT)
    • テキストからの動画生成に関する論文。この手のモデルの高機能が進んでいる。ここでは(も)正しい評価は課題のよう。CLIPを用いた評価戦略に有効性が認められたのはBERT系手法を評価に用いる自然言語処理に似ている。ソースコード等は今後公開とのこと。

Infographic QAデータセット

  • InfographicVQA [31.1]
    InfographicVQAは、さまざまなインフォグラフィックコレクションと自然言語の質問と回答アノテーションを含む、新しいデータセットである。 基本推論と基本算術スキルを必要とする質問に重点を置いたデータセットをキュレートする。 データセット、コード、およびリーダーボードはhttp://docvqa.orgで入手できる。
    論文  参考訳(メタデータ)   (Mon, 26 Apr 2021 17:45:54 GMT)
    • かなり解くのが難しい問題に思えるデータセットだが、2020年のチャレンジではそれなりのスコアが出ているのが凄い。https://icdar2021.org/で行われるチャレンジ用。

大規模QAデータセット、大規模ビデオデータセット

  • GooAQ: Open Question Answering with Diverse Answer Types [63.1]
    さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。 このデータセットには500万の質問と300万の回答が含まれている。
    論文  参考訳(メタデータ)   (Sun, 18 Apr 2021 05:40:39 GMT)
    • Googleから抽出されたQAデータセット。規約的にこのようなことをやってよいのか疑問ではあるが、貴重なデータであることは確か。
    • https://github.com/allenai/gooaq
  • Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.9]
    VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 19 Apr 2021 15:58:45 GMT)
    • 中国語の大規模ビデオ+言語データセット
    • 中国語のデータセット構築も非常に盛んな印象がある。

データセット(要約、マルチリンガルベンチマーク)、シミュレーションtoリアル

  • XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.8]
    本稿では,言語間移動学習の現状を解析する。 XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 12:26:12 GMT)
    • マルチリンガルなベンチマークXTREMEの拡張版。現在、XTREMEの上位は中国の企業が多い。日本の企業にも頑張ってほしいところ。
  • MS2: Multi-Document Summarization of Medical Studies [11.4]
    MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。 このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。 早期成果を期待して,BARTに基づく要約システムを実験した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 15 Apr 2021 16:09:21 GMT)
  • Auto-Tuned Sim-to-Real Transfer [143.4]
    シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。 ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。 実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 17:59:55 GMT)
    • シミュレーションと現実をつなぐ研究。強化学習でよく用いられるシミュレーション環境での学習結果を現実環境に適用するための良いアプローチを提案。
    • Training-serving skewも自動検知、自動修正できるようになったりしないのかなと思う最近。ドメインシフト検知等の研究は多いのでどうにかなる時代が来るかもと期待。

Active Learningの公平性、セレブヘアー

  • Can Active Learning Preemptively Mitigate Fairness Issues? [66.8]
    データセットバイアスは、機械学習における不公平な原因の1つです。 不確実性に基づくActive Learningで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。 また、勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。フェアネスの問題に対処しながら、彼らのインタラクションは、調査したほとんどのベンチマークやメトリクスの結果をさらに改善します。
    論文  参考訳(メタデータ)   (Wed, 14 Apr 2021 14:20:22 GMT)
    • 能動学習における公平性考慮を扱った論文。重要な観点だと思う。
  • CelebHair: A New Large-Scale Dataset for Hairstyle Recommendation based on CelebA [4.1]
    本稿では,セレブの顔属性データセットcelebaに基づいて,ヘアスタイル推薦のための新しいデータセットcelebhairを提案する。 私たちのデータセットは、CelebAの美容関連顔の属性と共に顔画像の大半を継承しました。
    論文  参考訳(メタデータ)   (Wed, 14 Apr 2021 14:26:37 GMT)
    • フェアを取り上げたのでヘアーを取り上げてみた。はおいておいてヘアスタイル推薦は実用的に有用な問題だとは思う。

引用関係を用いた要約、 高解像度航空写真のシーン認識データセット

  • Enhancing Scientific Papers Summarization with Citation Graph [78.7]
    論文要約を引用グラフを利用して再定義し,引用グラフに基づく要約モデルCGSumを提案する。異なる領域の141Kの研究論文と661Kの引用関係を含む新たな科学論文要約データセットSemantic Scholar Network (SSN)を構築した。 単純なアーキテクチャであっても, 事前学習モデルと比較して性能が向上することが示された。論文の内容をよりよく理解し、高品質な要約を生成するために引用グラフが重要であることも示唆した。
    論文  参考訳(メタデータ)   (Wed, 7 Apr 2021 11:13:35 GMT)
    • 単純な文書要約ではなく文章以外の情報(ここでは引用関係)を考慮した要約。文書間の関係考慮は現実問題でも重要。データセット、コードも公開してくれるとのこと。
  • MultiScene: A Large-scale Dataset and Benchmark for Multi-scene Recognition in Single Aerial Images [17.8]
    我々は10万の高解像度空中画像からなるMultiSceneと呼ばれる大規模なデータセットを作成します。  このようなイメージを手動でラベル付けするのは極めて困難なため、クラウドソーシングプラットフォーム(例えばOpenStreetMap (OSM))から低コストなアノテーションを利用した。ノイズに対応するため、14,000枚の画像を検査し、そのシーンラベルを補正し、MultiScene-Cleanというクリーンな注釈付き画像のサブセットを生成した。これにより、クリーンデータを用いたマルチシーン認識のためのディープネットワークの開発と評価が可能となる。
    論文  参考訳(メタデータ)   (Wed, 7 Apr 2021 01:09:12 GMT)
    • 大規模データセットということで採用。ノイズへの対応は苦労が多そう。