データセット(要約、マルチリンガルベンチマーク)、シミュレーションtoリアル

  • XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.8]
    本稿では,言語間移動学習の現状を解析する。 XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 12:26:12 GMT)
    • マルチリンガルなベンチマークXTREMEの拡張版。現在、XTREMEの上位は中国の企業が多い。日本の企業にも頑張ってほしいところ。
  • MS2: Multi-Document Summarization of Medical Studies [11.4]
    MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。 このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。 早期成果を期待して,BARTに基づく要約システムを実験した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 15 Apr 2021 16:09:21 GMT)
  • Auto-Tuned Sim-to-Real Transfer [143.4]
    シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。 ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。 実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 15 Apr 2021 17:59:55 GMT)
    • シミュレーションと現実をつなぐ研究。強化学習でよく用いられるシミュレーション環境での学習結果を現実環境に適用するための良いアプローチを提案。
    • Training-serving skewも自動検知、自動修正できるようになったりしないのかなと思う最近。ドメインシフト検知等の研究は多いのでどうにかなる時代が来るかもと期待。

Active Learningの公平性、セレブヘアー

  • Can Active Learning Preemptively Mitigate Fairness Issues? [66.8]
    データセットバイアスは、機械学習における不公平な原因の1つです。 不確実性に基づくActive Learningで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。 また、勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。フェアネスの問題に対処しながら、彼らのインタラクションは、調査したほとんどのベンチマークやメトリクスの結果をさらに改善します。
    論文  参考訳(メタデータ)   (Wed, 14 Apr 2021 14:20:22 GMT)
    • 能動学習における公平性考慮を扱った論文。重要な観点だと思う。
  • CelebHair: A New Large-Scale Dataset for Hairstyle Recommendation based on CelebA [4.1]
    本稿では,セレブの顔属性データセットcelebaに基づいて,ヘアスタイル推薦のための新しいデータセットcelebhairを提案する。 私たちのデータセットは、CelebAの美容関連顔の属性と共に顔画像の大半を継承しました。
    論文  参考訳(メタデータ)   (Wed, 14 Apr 2021 14:26:37 GMT)
    • フェアを取り上げたのでヘアーを取り上げてみた。はおいておいてヘアスタイル推薦は実用的に有用な問題だとは思う。

引用関係を用いた要約、 高解像度航空写真のシーン認識データセット

  • Enhancing Scientific Papers Summarization with Citation Graph [78.7]
    論文要約を引用グラフを利用して再定義し,引用グラフに基づく要約モデルCGSumを提案する。異なる領域の141Kの研究論文と661Kの引用関係を含む新たな科学論文要約データセットSemantic Scholar Network (SSN)を構築した。 単純なアーキテクチャであっても, 事前学習モデルと比較して性能が向上することが示された。論文の内容をよりよく理解し、高品質な要約を生成するために引用グラフが重要であることも示唆した。
    論文  参考訳(メタデータ)   (Wed, 7 Apr 2021 11:13:35 GMT)
    • 単純な文書要約ではなく文章以外の情報(ここでは引用関係)を考慮した要約。文書間の関係考慮は現実問題でも重要。データセット、コードも公開してくれるとのこと。
  • MultiScene: A Large-scale Dataset and Benchmark for Multi-scene Recognition in Single Aerial Images [17.8]
    我々は10万の高解像度空中画像からなるMultiSceneと呼ばれる大規模なデータセットを作成します。  このようなイメージを手動でラベル付けするのは極めて困難なため、クラウドソーシングプラットフォーム(例えばOpenStreetMap (OSM))から低コストなアノテーションを利用した。ノイズに対応するため、14,000枚の画像を検査し、そのシーンラベルを補正し、MultiScene-Cleanというクリーンな注釈付き画像のサブセットを生成した。これにより、クリーンデータを用いたマルチシーン認識のためのディープネットワークの開発と評価が可能となる。
    論文  参考訳(メタデータ)   (Wed, 7 Apr 2021 01:09:12 GMT)
    • 大規模データセットということで採用。ノイズへの対応は苦労が多そう。