MAVE(Multi-source Attribute Value Extraction): 属性情報抽出データセット

3D Question Answering:3次元の質問回答データセットScanQAと3DQA-TRフレームワーク

  • 3D Question Answering [22.2]
    VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。 本稿では,新しい3DQAフレームワーク 3DQA-TR を提案する。 提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットScanQAを開発した。
    論文  参考訳(メタデータ)   (Wed, 15 Dec 2021 18:59:59 GMT)
    • データ等は公開予定とのこと。

BOVText: ビデオ-テキストデータセットとend-to-endなモデル

  • A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
    大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。 まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。 第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 9 Dec 2021 13:21:26 GMT)

教師無しドメイン適合のためのWILDS Benchmark

  • Extending the WILDS Benchmark for Unsupervised Adaptation [186.9]
    機械学習システムはしばしば異なるターゲットディストリビューションにデプロイされる。 WILDSの分散シフトベンチマークの10データセットのうち8データセットを拡張して,デプロイ時に現実的に取得可能な未ラベルデータを含むようにする。 一貫性を維持するため、ラベル付きトレーニング、検証、テストセット、評価メトリクスは、オリジナルのWILDSベンチマークとまったく同じである。これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
    論文  参考訳(メタデータ)   (Thu, 9 Dec 2021 18:32:38 GMT)
    • WILDSベンチマークの拡張版の提案。未ラベルデータを含むことでドメイン適合を行った場合のベンチマークが可能に。
    • プロジェクトサイトはWILDS (stanford.edu)

Fusion Brain Challenge on AI Journey 2021: マルチタスク・マルチモーダルモデルのコンペティション

TWEETSUMM : 対話要約データセット

SLUE(Spoken Language Understanding Evaluation): 音声言語理解のためのベンチマーク

  • SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
    音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。 本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。 本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 18:59:23 GMT)
    • 音声を用いたASR(Automatic Speech Recognition)、NER(Named Entity Recognition)、SA(Sentiment Analysis)タスクのベンチマーク。
    • プロジェクトサイトはGitHub – asappresearch/slue-toolkit

DataCLUE: Data-Centric AIのベンチマーク

AnswerSumm: 回答を要約するデータセット

  • AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization [73.9]
    Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。 回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。 本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
    論文  参考訳(メタデータ)   (Thu, 11 Nov 2021 21:48:02 GMT)
    • Community Question Answeringの回答を要約したデータセット。回答を文単位でラベリング、文をクラスタリング、クラスタ内を要約、クラスタ内の要約を統合というパイプラインを経ておりサイズは4.6K。人がアノテーションしたデータとして大規模とのこと。
    • リポジトリはhttps://github.com/alex-fabbri/answersumm、データセットもダウンロード可能

Graph Robustness Benchmark: グラフ構造を用いた機械学習の頑健性ベンチマーク

  • Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of Graph Machine Learning [24.5]
    グラフに対する敵対的な攻撃は、グラフ機械学習(GML)モデルの堅牢性にとって大きな脅威となっている。 グラフロバストネスベンチマーク(GRB)を用いて,GMLモデルの対向ロバスト性に対する拡張性,統一性,モジュール性,再現性を備えた評価を行う。
    論文  参考訳(メタデータ)   (Mon, 8 Nov 2021 07:55:13 GMT)
    • 頑健性(敵対攻撃への耐性)に重きを置いたベンチマークの提案。攻撃側、防御側がコンペのように競いあう方式になっているようで興味深い。