CroCoSum

  • CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
    近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。 我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 17:52:51 GMT)
  • クロスリンガルな要約データセット。英語→中国語。
  • 「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。(日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う)
  • 異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
  • リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404

BrackishMOT

  • BrackishMOT: The Brackish Multi-Object Tracking Dataset [20.5]
    濁った環境で捕獲された水中マルチオブジェクト追跡(MOT)データセットは公開されていない。 BrackishMOTは、野生で捕獲された98のシークエンスから構成される。新しいデータセットに加えて、最先端のトラッカーをトレーニングしてベースライン結果を示す。 トレーニング中に合成データを含めることの効果を分析し,実際の水中トレーニングデータと合成水中トレーニングデータを組み合わせることで,追跡性能が向上することを示した。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 13:02:36 GMT)
  • 海洋生物のMulti Object Trachking用データセット。合成データ生成フレームワークも提案している。データセットのクラスには (1) fish, (2) crab, (3) shrimp, (4) starfish, (5) small fish, (6) jellyfishが含まれているとのこと。ライセンスはCC BY-NC-SA 4.0
  • プロジェクトサイトはBrackishMOT | vap.aau.dk

ROOTS Search Tool

  • The ROOTS Search Tool: Data Transparency for LLMs [116.6]
    ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。 本稿では,ROOTS 検索ツールについて紹介する。ROOTS コーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
    論文  参考訳(メタデータ)   (Mon, 27 Feb 2023 18:45:18 GMT)
  • 大規模多言語コーパスの検索ツールの紹介
  • 残念ながら日本語は対象となっていないデータセットではあるが、検索してみると対訳データなどの形でちょくちょく日本語のテキストが含まれていることが分かる。全体としてどの程度の量が入っているかやそれによって日本語を解釈する能力がどの程度あるのかは興味がある
  • リポジトリはRoots Search Tool – a Hugging Face Space by bigscience-data

BigSurvey: 学術論文の大規模データセット

  • Generating a Structured Summary of Numerous Academic Papers: Dataset and Method [20.9]
    本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。 我々は,7千件以上の調査論文から対象要約を収集し,その43万件の参考論文の要約を入力文書として活用する。 数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 11:42:07 GMT)
  • 7,000サーベイと430,000の参照論文からなるデータセット。Multi Documentな要約の貴重なデータで長文であることからも難しい対象だと思う。ベースライン実装ではBigBIRD-PEGASUやLEDを上回っている。
  • リポジトリはGitHub – StevenLau6/BigSurvey: A large-scale dataset for numerous academic papers summarization、ライセンスはOpen Data Commons Attribution License (ODC-By) v1.0 — Open Data Commons: legal tools for open data

LEXTREME

MusicLMとMusicCaps

  • MusicLM: Generating Music From Text [24.5]
    テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。 実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
    論文  参考訳(メタデータ)   (Thu, 26 Jan 2023 18:58:53 GMT)
  • テキストからの音楽生成、hierarchical sequence-to-sequence modelingとテンプレートレス。MusicCapsという名前で音楽とテキストのペアデータセット、55kを公開しているのも素晴らしい
  • プロジェクトサイトはMusicLM (google-research.github.io)、サンプルが聞けてそれっぽいのと歌声が入っているのも面白い。
  • MusicCapsデータセットはMusicCaps | Kaggleにあり、ライセンスはCC BY-SA 4.0

 HC3 (Human ChatGPT Comparison Corpus) dataset

  • How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection [8.1]
    ChatGPTは、幅広い人間の質問に効果的に反応できる。 人々はChatGPTのような大きな言語モデル(LLM)が社会に与える影響を心配し始めています。 本研究では,人間の専門家とChatGPTの双方から,数万件の比較回答を収集した。
    論文  参考訳(メタデータ)   (Wed, 18 Jan 2023 15:23:25 GMT)
  • ChatGPTの回答と人の回答を比べるためのデータセット。データ件数は約4万件、言語は英語と中国語。短期間でよく作ったなと思う内容。RoBERTaを使えばChatGPTで作ったコンテンツの検出はできそうに見えるが、今後もそうかは謎。
  • 本論には関係ないところで「金融や心理学分野ではChatGPTの回答の方が人の回答より役に立つと判定されたが医療分野では全く逆」、その理由が「医療分野でのChatGPTの回答は長く直接的でない傾向にあるため(と思われる)」という点が面白かった…それと「ChatGPT may fabricate facts.」もですよねーという感想
  • リポジトリはGitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥

MAQA: A Multimodal QA Benchmark for Negation

  • MAQA: A Multimodal QA Benchmark for Negation [12.1]
    マルチモーダル学習は、事前学習された大規模言語モデル(LLM)の表現力の恩恵を受けることができる 本稿では,AudioSetのラベル付き音楽ビデオから適応したマルチモーダル質問応答(QA)ベンチマークを提案する。 モデルサイズに関わらず,マルチモーダル変圧器の標準的な微調整手法では,否定を正しく解釈することができないことを示す。
    論文  参考訳(メタデータ)   (Mon, 9 Jan 2023 10:11:23 GMT)
  • 現状のモデルが苦手とする否定表現に対応するためのタスク拡張手法の提案。テンプレートベースのタスク拡張に比べてPaLMを利用した場合のほうが性能が良く、大規模言語モデルを併用した戦略は良く機能するよう。
  • 構築したデータセットは公開予定とのこと

SlideVQA

  • SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
    52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。 我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
    論文  参考訳(メタデータ)   (Thu, 12 Jan 2023 09:00:42 GMT)
  • スライド画像をベースとしたVQAデータセット。NTTからの発表。
  • リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
  • 評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
    • 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…?(なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ)

ClimaBench

  • ClimaBench: A Benchmark Dataset For Climate Change Text Understanding in English [26.0]
    気候変動(CC)は、現実世界の緊急性にもかかわらず、NLPにおいて限られた注目を集めている。 モデル性能を評価するために,既存の異種データセットのベンチマークコレクションであるClimate Change Benchmark(ClimaBench)を紹介する。 我々は,公開環境情報から収集した大規模ラベル付きテキスト分類と質問応答データセットを2種類リリースする。
    論文  参考訳(メタデータ)   (Wed, 11 Jan 2023 00:22:56 GMT)
  • 気候変動に関連するベンチマークでNLP向け
  • リポジトリはGitHub – climabench/climabench