GOAL: knowledgeGrounded videO cAptioning benchmark for reaLtime soccer commentary generation

  • GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation [42.0]
    我々は,KGVC(Knowledge-grounded Video Captioning)として,サッカービデオクリップ8.9k,文22k,知識3分の3以上のベンチマークを提示する。 我々は,既存の手法を実験的に適用し,この課題の解決の難しさと可能性を示す。
    論文  参考訳(メタデータ)   (Sun, 26 Mar 2023 08:43:36 GMT)
  • かなり無理やり感のある略称のベンチマークデータセット。規模が大きく面白いものではあるが、略称が(以下略)
  • KGVC: knowledgegrounded video captioningタスクとしてかなり難しいデータであるとのこと(そもそもこのタスクは相当困難な気はする)
  • Our dataset will be publicly available after reviewらしい

MGTBench: Machine-Generated Textの検出ベンチマーク

  • MGTBench: Benchmarking Machine-Generated Text Detection [27.7]
    大規模言語モデル(LLM)は、人間によって書かれたテキストと区別が難しいような、人間のような言語を生成することができる。 MGTに対する既存の検出方法は、異なるモデルアーキテクチャ、データセット、実験的な設定で評価される。 我々はMGTBenchというMGT検出のための最初のベンチマークフレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 26 Mar 2023 21:12:36 GMT)
  • 機械で生成されたテキストを検出可能かのベンチマーク。GitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥が好成績とのこと。一方で「We find that, with only small perturbations on the MGTs, ChatGPT Detector can be easily bypassed」という記載は気になる。
  • リポジトリはGitHub – xinleihe/MGTBench

PosterLayout

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling 

  • The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
    我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。 本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
    論文  参考訳(メタデータ)   (Thu, 30 Mar 2023 06:42:22 GMT)
  • デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile(800GB)以上の規模で大規模言語モデル構築で十分機能するデータ量
  • 日本語データを作ってみたいなーと思いつつ、参考になる情報(データセットが構築できても計算環境が厳しいが…)

MUG: Meeting Understanding and Generation benchmark

  • MUG: A General Meeting Understanding and Generation Benchmark [60.1]
    我々はAliMeeting4MUG Corpusを構築した。 本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
    論文  参考訳(メタデータ)   (Fri, 24 Mar 2023 11:52:25 GMT)
  • 会議の理解と生成に関するデータセット
  • SLP(spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
  •  サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
  • リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)

PRESTO

MEGA: Multilingual Evaluation of Generative AI 

  • MEGA: Multilingual Evaluation of Generative AI [6.3]
    生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。 ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。 これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
    論文  参考訳(メタデータ)   (Wed, 22 Mar 2023 13:03:10 GMT)
  • データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
  • davinci-003の結果は「健闘しているがfine tuningされたSoTAレベルには及ばず」「翻訳を介するtranslate-test が有効」という感じだが、GPT-4でどう変わっているかが気になるところ。

TGDataset

  • TGDataset: a Collection of Over One Hundred Thousand Telegram Channels [69.2]
    本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。 我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。 生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
    論文  参考訳(メタデータ)   (Thu, 9 Mar 2023 15:42:38 GMT)
  • 120,979のTelegramチャネルと4億以上のメッセージを含む巨大なデータセット、約460 GB、snowball approach(シードとなるチャネルから初めて送信元チャネルを取得していく)で作成されたとのこと。
  • リポジトリはGitHub – SystemsLab-Sapienza/TGDataset: A collection of over 120’000 Telegram ChannelsTGDataset | Zenodo

SMC-Bench

CroCoSum

  • CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
    近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。 我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 17:52:51 GMT)
  • クロスリンガルな要約データセット。英語→中国語。
  • 「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。(日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う)
  • 異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
  • リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404