Natural Instructions v2: 自然言語で説明されたタスク

  • Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks [95.1]
    Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。 ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。 このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sat, 16 Apr 2022 03:12:30 GMT)
    • 自然言語で説明が付与されたタスク・データセット。
      • 自然言語で命令すればタスクをこなしてくれるモデルの実現が近づいている印象があり、重要なデータセットだと思う。
    • Learning From Instructions (allenai.org)

NumGLUE: 数学的推論のデータセット

  • NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.7]
    8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。 このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。 我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
    論文  参考訳(メタデータ)   (Tue, 12 Apr 2022 09:36:10 GMT)
    • 以下8タスクからなる数学的推論タスクのデータセット。ベースラインも用意されているがかなり困難なタスクに見える。
      • TASK 1 Commonsense + Arithmetic
      • TASK 2 Domain specific + Arithmetic
      • TASK 3 Commonsense + Quantitative
      • TASK 4 Fill-in-the-blanks
      • TASK 5 RC + Explicit Numerical Reasoning
      • TASK 6 RC + Implicit Numerical Reasoning
      • TASK 7 Quantitative NLI
      • TASK 8 Arithmetic word problems
  • プロジェクトサイトはNumGLUE Dataset — Allen Institute for AI (allenai.org)

Dynatask: ベンチマーク作成用フレームワーク

XTREME-S: クロスリンガルな音声表現ベンチマーク

  • XTREME-S: Evaluating Cross-lingual Speech Representations [75.4]
    XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。 本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 21 Mar 2022 06:50:21 GMT)
    • speech recognition、speech classification、speech translation、speech retrievalのタスクに対する多言語データセット
    • Huggingfaceからダウンロード可能とのことだが、現時点では404 https://huggingface.co/datasets/google/xtreme_s

SciNLI:科学に関連するテキストのNLI

DUAL(Discrete Unit Adaptive Learning): TextlessなSQA(Spoken Question Answering)

  • DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.7]
    SQA (Spoken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。 既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。 本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 9 Mar 2022 17:46:22 GMT)
    • Textlessな(音声認識を使わない)SQAフレームワークの提案。データセットとしてNatural Multi-Speaker Spoken Question Answering (NMSQA)も合わせて公開している。
    • ASRを併用するアプローチと競合的な結果で(当たり前ではあるが)ASR品質によっては提案手法が優れていることがあるとのこと。
    • リポジトリはGitHub – DanielLin94144/DUAL-textless-SQA: The official implementation of DUAL textless SQA

対話システムにおける社会的バイアスとCDAIL-BIAS DATASET 

  • Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and Benchmarks [95.3]
    本稿では,ダイアログの安全性問題に対する社会的バイアス検出に焦点をあてる。 まず,会話における社会的バイアスを現実的に分析する新しいダイアルバイアスフレームを提案する。 中国初の社会バイアスダイアログデータセットであるCDail-Biasデータセットを紹介する。
    論文  参考訳(メタデータ)   (Wed, 16 Feb 2022 11:59:29 GMT)
    • 今後ユーザインタフェースとして普及が予想される対話システムにおいて、社内的バイアスの存在が問題視されている。その検出のためのデータセット(中国版)を作成、ベースラインを提供。
    • データセットは今後公開予定とのこと。

ClidSum(Cross-LIngual Dialogue SUMmarization): クロスリンガルな対話要約データセットとmDialBARTモデル

  • ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization [41.7]
    本稿では,対話文書を用いた言語間要約システム構築のためのベンチマークデータセットClidSumを提案する。 それは、2つのサブセット(SAMSumとMediaSum)から67k以上の対話文書と、異なるターゲット言語における112k以上の注釈付き要約からなる。
    論文  参考訳(メタデータ)   (Fri, 11 Feb 2022 13:32:14 GMT)
    • クロスリンガルな対話要約データセットとモデルの提案。データセットの規模は大きく有用そう。モデルはmBART-50ベースで翻訳を併用する手法を上回る性能とのこと。
      • 8ページのSummarize-then-translate、Translate-then-summarizeを含む結果も非常に興味深い
    • リポジトリはGitHub – krystalan/ClidSum: ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization、現状ではコード等はアップロードされておらず今月中にリリース予定とのこと。

JaQuAD: 日本語のSQuADデータ

DALL-Eval: 画像生成モデルを評価するデータセットと評価ツールキットPAINTSKILLS

  • DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers [83.1]
    マルチモーダル変換言語モデルであるDALL-Eとその変種は高品質なテキスト・画像生成機能を示している。 興味深い画像生成結果にもかかわらず、そのようなモデルの評価方法に関する詳細な分析は行われていない。 本研究では,このようなテキスト対画像生成トランスフォーマの推論能力と社会的バイアスについて詳細に検討する。 近年のテキスト・ツー・イメージモデルでは,色認識や空間的関係の理解よりもオブジェクトの認識とカウントが優れていることを示す。
    論文  参考訳(メタデータ)   (Tue, 8 Feb 2022 18:36:52 GMT)