教師無しドメイン適合のためのWILDS Benchmark

  • Extending the WILDS Benchmark for Unsupervised Adaptation [186.9]
    機械学習システムはしばしば異なるターゲットディストリビューションにデプロイされる。 WILDSの分散シフトベンチマークの10データセットのうち8データセットを拡張して,デプロイ時に現実的に取得可能な未ラベルデータを含むようにする。 一貫性を維持するため、ラベル付きトレーニング、検証、テストセット、評価メトリクスは、オリジナルのWILDSベンチマークとまったく同じである。これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
    論文  参考訳(メタデータ)   (Thu, 9 Dec 2021 18:32:38 GMT)
    • WILDSベンチマークの拡張版の提案。未ラベルデータを含むことでドメイン適合を行った場合のベンチマークが可能に。
    • プロジェクトサイトはWILDS (stanford.edu)

Fusion Brain Challenge on AI Journey 2021: マルチタスク・マルチモーダルモデルのコンペティション

TWEETSUMM : 対話要約データセット

SLUE(Spoken Language Understanding Evaluation): 音声言語理解のためのベンチマーク

  • SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
    音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。 本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。 本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 18:59:23 GMT)
    • 音声を用いたASR(Automatic Speech Recognition)、NER(Named Entity Recognition)、SA(Sentiment Analysis)タスクのベンチマーク。
    • プロジェクトサイトはGitHub – asappresearch/slue-toolkit

DataCLUE: Data-Centric AIのベンチマーク

AnswerSumm: 回答を要約するデータセット

  • AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization [73.9]
    Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。 回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。 本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
    論文  参考訳(メタデータ)   (Thu, 11 Nov 2021 21:48:02 GMT)
    • Community Question Answeringの回答を要約したデータセット。回答を文単位でラベリング、文をクラスタリング、クラスタ内を要約、クラスタ内の要約を統合というパイプラインを経ておりサイズは4.6K。人がアノテーションしたデータとして大規模とのこと。
    • リポジトリはhttps://github.com/alex-fabbri/answersumm、データセットもダウンロード可能

Graph Robustness Benchmark: グラフ構造を用いた機械学習の頑健性ベンチマーク

  • Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of Graph Machine Learning [24.5]
    グラフに対する敵対的な攻撃は、グラフ機械学習(GML)モデルの堅牢性にとって大きな脅威となっている。 グラフロバストネスベンチマーク(GRB)を用いて,GMLモデルの対向ロバスト性に対する拡張性,統一性,モジュール性,再現性を備えた評価を行う。
    論文  参考訳(メタデータ)   (Mon, 8 Nov 2021 07:55:13 GMT)
    • 頑健性(敵対攻撃への耐性)に重きを置いたベンチマークの提案。攻撃側、防御側がコンペのように競いあう方式になっているようで興味深い。

SustainBench: SDGsに関連するベンチマーク

  1. SustainBench: Benchmarks for Monitoring the Sustainable Development Goals with Machine Learning [63.2]
    国連持続可能な開発目標の進展は、主要な環境・社会経済指標のデータ不足によって妨げられている。 近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することが可能になった。 本稿では,7個のSDGにまたがる15個のベンチマークタスクの集合であるSustainBenchを紹介する。
    論文  参考訳(メタデータ)   (Mon, 8 Nov 2021 18:59:04 GMT)
    • SDGsに関連するタスクを集めたデータセット・ベンチマーク。Leaderboardもあり、非常に面白い取り組みだと思う。
      1. Poverty prediction over space
      2. Poverty prediction over time
      3. Weakly supervised cropland classification
      4. Crop type classification
      5. Crop type mapping
      6. Crop yield prediction
      7. Field delineation
      8. Child mortality rate
      9. Women BMI
      10. Women educational attainment
      11. Water quality index
      12. Sanitation index
      13. Brick kiln detection
      14. Representation learning for land cover
      15. Out-of-domain land cover classification

BOBSL(BC-Oxford British Sign Language) Dataset: 大規模手話データセット

  • BBC-Oxford British Sign Language Dataset [64.3]
    我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。 データセットのモチベーションと統計、利用可能なアノテーションについて説明する。 我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
    論文  参考訳(メタデータ)   (Fri, 5 Nov 2021 17:35:58 GMT)
    • 2Kエピソード、1.5K時間、1.2Mセンテンスと大規模な手話データセット
    • 大規模で有用なデータであると同時に、データの分析がしっかり行われているのもさすがだと思う。

AutoML用ベンチマークデータセット

  • Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.4]
    テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。 このベンチマークにより、研究者は、数値、カテゴリ、テキストデータの特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
    論文  参考訳(メタデータ)   (Thu, 4 Nov 2021 09:29:16 GMT)
    • AutoML用ベンチマークデータセット。ベンチマークデータセットを通して得られた分析結果も興味深い。ただ、「Given the success of pretrained Transformers across NLP, we are surprised to find both N-Grams and word2vec here provide superior text featurization than Pre-Embedding.」は驚きではないのでは?という印象。
    • リポジトリはhttps://github.com/sxjscience/automl_multimodal_benchmark、データセットのライセンスは CC BY-NC-SA とのこと。