CUGE(Chinese Language Understanding and Generation): 中国語の言語理解、生成ベンチマーク

  • CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark [144.1]
    汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。 汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。 以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
    論文  参考訳(メタデータ)   (Mon, 27 Dec 2021 11:08:58 GMT)
    • 自然言語タスクが幅広く扱われたベンチマークで、階層別に整理されておりリーダーボードが存在。
      • 日本語版が欲しい・・・動きはあるようなので、このような統一的なものが作られることを期待
    • プロジェクトサイトは智源指数 (baai.ac.cn)

MuMuQA(Multimedia Multi-Hop news Question Answering)

  • MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.9]
    我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。 具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。 本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 20 Dec 2021 18:23:30 GMT)
    • クロスメディア(画像、キャプション、ニュース本文)、マルチホップなQAデータセットの提案。人間が作成した評価用データは1384、自動生成された学習用(Silver Training Set)のデータを含むのが特徴的。Oscar-largeでも人間に比べて大幅に性能が悪い難しいデータセットになっている。
    • リポジトリはGitHub – uiucnlp/MuMuQAだがcoming soon

MAVE(Multi-source Attribute Value Extraction): 属性情報抽出データセット

3D Question Answering:3次元の質問回答データセットScanQAと3DQA-TRフレームワーク

  • 3D Question Answering [22.2]
    VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。 本稿では,新しい3DQAフレームワーク 3DQA-TR を提案する。 提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットScanQAを開発した。
    論文  参考訳(メタデータ)   (Wed, 15 Dec 2021 18:59:59 GMT)
    • データ等は公開予定とのこと。

BOVText: ビデオ-テキストデータセットとend-to-endなモデル

  • A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer [12.2]
    大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。 まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。 第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 9 Dec 2021 13:21:26 GMT)

教師無しドメイン適合のためのWILDS Benchmark

  • Extending the WILDS Benchmark for Unsupervised Adaptation [186.9]
    機械学習システムはしばしば異なるターゲットディストリビューションにデプロイされる。 WILDSの分散シフトベンチマークの10データセットのうち8データセットを拡張して,デプロイ時に現実的に取得可能な未ラベルデータを含むようにする。 一貫性を維持するため、ラベル付きトレーニング、検証、テストセット、評価メトリクスは、オリジナルのWILDSベンチマークとまったく同じである。これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
    論文  参考訳(メタデータ)   (Thu, 9 Dec 2021 18:32:38 GMT)
    • WILDSベンチマークの拡張版の提案。未ラベルデータを含むことでドメイン適合を行った場合のベンチマークが可能に。
    • プロジェクトサイトはWILDS (stanford.edu)

Fusion Brain Challenge on AI Journey 2021: マルチタスク・マルチモーダルモデルのコンペティション

TWEETSUMM : 対話要約データセット

SLUE(Spoken Language Understanding Evaluation): 音声言語理解のためのベンチマーク

  • SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
    音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。 本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。 本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 18:59:23 GMT)
    • 音声を用いたASR(Automatic Speech Recognition)、NER(Named Entity Recognition)、SA(Sentiment Analysis)タスクのベンチマーク。
    • プロジェクトサイトはGitHub – asappresearch/slue-toolkit

DataCLUE: Data-Centric AIのベンチマーク