FS2K: 顔のスケッチ合成(FSS)問題のデータセットとベースライン

  • Deep Facial Synthesis: A New Challenge [76.0]
    まず,FS2Kという,2,104のイメージスケッチペアからなる高品質なFSSデータセットを提案する。 第2に, 古典的手法139点を調査し, 最大規模のFSSについて検討した。 第3に、FSGANという単純なFSSのベースラインを提示する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 31 Dec 2021 13:19:21 GMT)
    • 2100以上のデータからなる顔のスケッチデータセット(性別等の属性付き)の紹介と広範囲な調査、ベースラインの提示。顔合成に関するサーベイとしても興味深い内容。

RLD Dataset: 会話応答(表情)のビデオデータセット

  • Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.2]
    本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。 音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
    論文  参考訳(メタデータ)   (Mon, 27 Dec 2021 07:18:50 GMT)
    • 67人の講演者、76人の聴取者が3つの異なる態度で集結した会話ビデオコーパス「Responsive Listener Dataset(RLD)」に関する論文。表情を含め合成するのは面白く(難しいと思われる)タスク。
    • プロジェクトサイトはRLD Dataset (mhzhou.com)

CUGE(Chinese Language Understanding and Generation): 中国語の言語理解、生成ベンチマーク

  • CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark [144.1]
    汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。 汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。 以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
    論文  参考訳(メタデータ)   (Mon, 27 Dec 2021 11:08:58 GMT)
    • 自然言語タスクが幅広く扱われたベンチマークで、階層別に整理されておりリーダーボードが存在。
      • 日本語版が欲しい・・・動きはあるようなので、このような統一的なものが作られることを期待
    • プロジェクトサイトは智源指数 (baai.ac.cn)

BOVText: ビデオ-テキストデータセットとend-to-endなモデル

  • A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
    大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。 まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。 第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 9 Dec 2021 13:21:26 GMT)

教師無しドメイン適合のためのWILDS Benchmark

  • Extending the WILDS Benchmark for Unsupervised Adaptation [186.9]
    機械学習システムはしばしば異なるターゲットディストリビューションにデプロイされる。 WILDSの分散シフトベンチマークの10データセットのうち8データセットを拡張して,デプロイ時に現実的に取得可能な未ラベルデータを含むようにする。 一貫性を維持するため、ラベル付きトレーニング、検証、テストセット、評価メトリクスは、オリジナルのWILDSベンチマークとまったく同じである。これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
    論文  参考訳(メタデータ)   (Thu, 9 Dec 2021 18:32:38 GMT)
    • WILDSベンチマークの拡張版の提案。未ラベルデータを含むことでドメイン適合を行った場合のベンチマークが可能に。
    • プロジェクトサイトはWILDS (stanford.edu)

Fusion Brain Challenge on AI Journey 2021: マルチタスク・マルチモーダルモデルのコンペティション

TWEETSUMM : 対話要約データセット

SLUE(Spoken Language Understanding Evaluation): 音声言語理解のためのベンチマーク

  • SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
    音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。 本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。 本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 18:59:23 GMT)
    • 音声を用いたASR(Automatic Speech Recognition)、NER(Named Entity Recognition)、SA(Sentiment Analysis)タスクのベンチマーク。
    • プロジェクトサイトはGitHub – asappresearch/slue-toolkit

DataCLUE: Data-Centric AIのベンチマーク

Graph Robustness Benchmark: グラフ構造を用いた機械学習の頑健性ベンチマーク

  • Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of Graph Machine Learning [24.5]
    グラフに対する敵対的な攻撃は、グラフ機械学習(GML)モデルの堅牢性にとって大きな脅威となっている。 グラフロバストネスベンチマーク(GRB)を用いて,GMLモデルの対向ロバスト性に対する拡張性,統一性,モジュール性,再現性を備えた評価を行う。
    論文  参考訳(メタデータ)   (Mon, 8 Nov 2021 07:55:13 GMT)
    • 頑健性(敵対攻撃への耐性)に重きを置いたベンチマークの提案。攻撃側、防御側がコンペのように競いあう方式になっているようで興味深い。