MUG: Meeting Understanding and Generation benchmark

  • MUG: A General Meeting Understanding and Generation Benchmark [60.1]
    我々はAliMeeting4MUG Corpusを構築した。 本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
    論文  参考訳(メタデータ)   (Fri, 24 Mar 2023 11:52:25 GMT)
  • 会議の理解と生成に関するデータセット
  • SLP(spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
  •  サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
  • リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)

PRESTO

MEGA: Multilingual Evaluation of Generative AI 

  • MEGA: Multilingual Evaluation of Generative AI [6.3]
    生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。 ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。 これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
    論文  参考訳(メタデータ)   (Wed, 22 Mar 2023 13:03:10 GMT)
  • データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
  • davinci-003の結果は「健闘しているがfine tuningされたSoTAレベルには及ばず」「翻訳を介するtranslate-test が有効」という感じだが、GPT-4でどう変わっているかが気になるところ。

TGDataset

  • TGDataset: a Collection of Over One Hundred Thousand Telegram Channels [69.2]
    本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。 我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。 生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
    論文  参考訳(メタデータ)   (Thu, 9 Mar 2023 15:42:38 GMT)
  • 120,979のTelegramチャネルと4億以上のメッセージを含む巨大なデータセット、約460 GB、snowball approach(シードとなるチャネルから初めて送信元チャネルを取得していく)で作成されたとのこと。
  • リポジトリはGitHub – SystemsLab-Sapienza/TGDataset: A collection of over 120’000 Telegram ChannelsTGDataset | Zenodo

SMC-Bench

CroCoSum

  • CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
    近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。 我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 17:52:51 GMT)
  • クロスリンガルな要約データセット。英語→中国語。
  • 「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。(日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う)
  • 異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
  • リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404

BrackishMOT

  • BrackishMOT: The Brackish Multi-Object Tracking Dataset [20.5]
    濁った環境で捕獲された水中マルチオブジェクト追跡(MOT)データセットは公開されていない。 BrackishMOTは、野生で捕獲された98のシークエンスから構成される。新しいデータセットに加えて、最先端のトラッカーをトレーニングしてベースライン結果を示す。 トレーニング中に合成データを含めることの効果を分析し,実際の水中トレーニングデータと合成水中トレーニングデータを組み合わせることで,追跡性能が向上することを示した。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 13:02:36 GMT)
  • 海洋生物のMulti Object Trachking用データセット。合成データ生成フレームワークも提案している。データセットのクラスには (1) fish, (2) crab, (3) shrimp, (4) starfish, (5) small fish, (6) jellyfishが含まれているとのこと。ライセンスはCC BY-NC-SA 4.0
  • プロジェクトサイトはBrackishMOT | vap.aau.dk

ROOTS Search Tool

  • The ROOTS Search Tool: Data Transparency for LLMs [116.6]
    ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。 本稿では,ROOTS 検索ツールについて紹介する。ROOTS コーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
    論文  参考訳(メタデータ)   (Mon, 27 Feb 2023 18:45:18 GMT)
  • 大規模多言語コーパスの検索ツールの紹介
  • 残念ながら日本語は対象となっていないデータセットではあるが、検索してみると対訳データなどの形でちょくちょく日本語のテキストが含まれていることが分かる。全体としてどの程度の量が入っているかやそれによって日本語を解釈する能力がどの程度あるのかは興味がある
  • リポジトリはRoots Search Tool – a Hugging Face Space by bigscience-data

BigSurvey: 学術論文の大規模データセット

  • Generating a Structured Summary of Numerous Academic Papers: Dataset and Method [20.9]
    本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。 我々は,7千件以上の調査論文から対象要約を収集し,その43万件の参考論文の要約を入力文書として活用する。 数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 11:42:07 GMT)
  • 7,000サーベイと430,000の参照論文からなるデータセット。Multi Documentな要約の貴重なデータで長文であることからも難しい対象だと思う。ベースライン実装ではBigBIRD-PEGASUやLEDを上回っている。
  • リポジトリはGitHub – StevenLau6/BigSurvey: A large-scale dataset for numerous academic papers summarization、ライセンスはOpen Data Commons Attribution License (ODC-By) v1.0 — Open Data Commons: legal tools for open data

LEXTREME