XTREME-S: クロスリンガルな音声表現ベンチマーク

  • XTREME-S: Evaluating Cross-lingual Speech Representations [75.4]
    XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。 本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 21 Mar 2022 06:50:21 GMT)
    • speech recognition、speech classification、speech translation、speech retrievalのタスクに対する多言語データセット
    • Huggingfaceからダウンロード可能とのことだが、現時点では404 https://huggingface.co/datasets/google/xtreme_s

SciNLI:科学に関連するテキストのNLI

ToxiGen: 機械作成された13のグループに対するHate Speech検出(有毒/良性文)のデータセット

  • ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection [33.7]
    ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。 このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。 有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 17 Mar 2022 17:57:56 GMT)
    • GPT-3を使って構築したHate speechのデータセット。ビームサーチ中にALICEと呼ばれる「事前訓練された言語モデルと毒性分類器間のゲーム」を入れることで品質の高い(検出の難しい)文を生成とのこと。

Chart-to-Text:グラフを自然言語で表現するためのデータセット

  • Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.6]
    2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。 データセット構築プロセスを説明し、データセットを解析する。
    論文  参考訳(メタデータ)   (Sat, 12 Mar 2022 17:01:38 GMT)
    • グラフの説明をするモデル構築のためのデータセットとベースラインの提案。比較を含むためテキスト生成の中でも難しいタスクのように感じる。
    • リポジトリはGitHub – vis-nlp/Chart-to-textとのこと。(現状ではアップロードされていない)

DUAL(Discrete Unit Adaptive Learning): TextlessなSQA(Spoken Question Answering)

  • DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.7]
    SQA (Spoken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。 既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。 本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 9 Mar 2022 17:46:22 GMT)
    • Textlessな(音声認識を使わない)SQAフレームワークの提案。データセットとしてNatural Multi-Speaker Spoken Question Answering (NMSQA)も合わせて公開している。
    • ASRを併用するアプローチと競合的な結果で(当たり前ではあるが)ASR品質によっては提案手法が優れていることがあるとのこと。
    • リポジトリはGitHub – DanielLin94144/DUAL-textless-SQA: The official implementation of DUAL textless SQA

PeerSum: ピアレビューを用いたMulti-document summarizationデータセット

  • PeerSum: A Peer Review Dataset for Abstractive Multi-document Summarization [37.5]
    PeerSumは、科学出版物のピアレビューを用いた新しいMDSデータセットである。 現在のMDSモデルは、PeerSumの高品質な要約を生成するのに苦労しています。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 3 Mar 2022 15:27:02 GMT)
    • ICLRとNeurIPSのレビューデータをスクレイピング、メタレビュー部分を高品質な抽象型要約用データとして使えるとの指摘。レビュー→メタレビューという問題設定はそもそも実用上重要で面白い。

MSCTD(Multimodal Sentiment Chat Translation Dataset): マルチモーダルな機械翻訳データセット

  • MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.8]
    マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。 MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。 本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
    論文  参考訳(メタデータ)   (Mon, 28 Feb 2022 09:40:46 GMT)
    • マルチモーダル(画像+テキスト)な機械翻訳データセットと対話勘定分析データセット。17.8K対話、173K発話・画像と大規模。ベースラインモデルも提供されており、画像を併用した方が性能が向上している。
    • リポジトリはGitHub – XL2248/MSCTD、現時点ではデータ等はアップされていない。。。

JParaCrawl v3.0: 日英パラレルコーパス

  • JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [30.5]
    本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。 JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。 我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
    論文  参考訳(メタデータ)   (Fri, 25 Feb 2022 10:52:00 GMT)
    • JParaCrawlのバージョン3、このデータで作成されたモデルの性能が大幅に上がっている。パラレルコーパスの公開は非常にありがたい(商用利用はできないなどライセンスには注意が必要)
      • 論文に書かれた性能だとFuguMTより上そう。。。強化が必要だな。。。
    • プロジェクトサイトはJParaCrawl (ntt.co.jp)

CAISE(Conversational Agent for Image Search and Editing ): 対話型画像検索・編集データセット

ArgSciChat: 学術論文を対象とした議論対話データセット

  • ArgSciChat: A Dataset for Argumentative Dialogues on Scientific Papers [61.8]
    学術論文のドメインエキスパートとして科学者間の対話を収集する新しい枠組みを導入する。 我々のフレームワークは、科学者が論文を対話の根拠として提示し、論文のタイトルを気に入った対話に参加することを可能にする。新しい議論的対話データセットArgSciChatの収集にフレームワークを使用します。 41の対話から収集された498のメッセージと20の科学論文からなる。
    論文  参考訳(メタデータ)   (Mon, 14 Feb 2022 13:27:19 GMT)