Huatuo-26M

Multimodal C4

  • Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text [104.0]
    テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。 このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。 我々はMultimodal C4 (mmc4) をリリースした。
    論文  参考訳(メタデータ)   (Fri, 14 Apr 2023 06:17:46 GMT)
  • 非常にありがたいマルチモーダルなデータセット。103Mドキュメント、585Mイメージ、43Btokenと大規模。
  • 「mmc4 is constructed from public webpages contained in the cleaned English c4 corpus.」とのことで日本語はほぼ入っていなさそう・・・
  • プロジェクトサイトはGitHub – allenai/mmc4: MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.

SportsMOT

  • SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes [44.5]
    本稿では,emphSportsMOTと呼ばれる多種多様なスポーツシーンにおける大規模多目的追跡データセットを提案する。 240のビデオシーケンス、150Kフレーム以上、およびバスケットボール、バレーボール、サッカーを含む3つのスポーツカテゴリーから収集された1.6M以上のバウンディングボックスで構成されている。 本稿では,emphMixSortと呼ばれる新しい多対象追跡フレームワークを提案する。
    論文  参考訳(メタデータ)   (Thu, 13 Apr 2023 12:23:36 GMT)
  • スポーツを対象としたマルチオブジェクトトラッキングデータセット
  • 動きが激しく、見た目での区別がつきそうでつかないという難しそうなデータだという印象
  • SportsMOT Dataset – DeeperAction

MoocRadar

GOAL: knowledgeGrounded videO cAptioning benchmark for reaLtime soccer commentary generation

  • GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation [42.0]
    我々は,KGVC(Knowledge-grounded Video Captioning)として,サッカービデオクリップ8.9k,文22k,知識3分の3以上のベンチマークを提示する。 我々は,既存の手法を実験的に適用し,この課題の解決の難しさと可能性を示す。
    論文  参考訳(メタデータ)   (Sun, 26 Mar 2023 08:43:36 GMT)
  • かなり無理やり感のある略称のベンチマークデータセット。規模が大きく面白いものではあるが、略称が(以下略)
  • KGVC: knowledgegrounded video captioningタスクとしてかなり難しいデータであるとのこと(そもそもこのタスクは相当困難な気はする)
  • Our dataset will be publicly available after reviewらしい

MGTBench: Machine-Generated Textの検出ベンチマーク

  • MGTBench: Benchmarking Machine-Generated Text Detection [27.7]
    大規模言語モデル(LLM)は、人間によって書かれたテキストと区別が難しいような、人間のような言語を生成することができる。 MGTに対する既存の検出方法は、異なるモデルアーキテクチャ、データセット、実験的な設定で評価される。 我々はMGTBenchというMGT検出のための最初のベンチマークフレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 26 Mar 2023 21:12:36 GMT)
  • 機械で生成されたテキストを検出可能かのベンチマーク。GitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥が好成績とのこと。一方で「We find that, with only small perturbations on the MGTs, ChatGPT Detector can be easily bypassed」という記載は気になる。
  • リポジトリはGitHub – xinleihe/MGTBench

PosterLayout

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling 

  • The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
    我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。 本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
    論文  参考訳(メタデータ)   (Thu, 30 Mar 2023 06:42:22 GMT)
  • デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile(800GB)以上の規模で大規模言語モデル構築で十分機能するデータ量
  • 日本語データを作ってみたいなーと思いつつ、参考になる情報(データセットが構築できても計算環境が厳しいが…)

MUG: Meeting Understanding and Generation benchmark

  • MUG: A General Meeting Understanding and Generation Benchmark [60.1]
    我々はAliMeeting4MUG Corpusを構築した。 本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
    論文  参考訳(メタデータ)   (Fri, 24 Mar 2023 11:52:25 GMT)
  • 会議の理解と生成に関するデータセット
  • SLP(spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
  •  サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
  • リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)

PRESTO