- Huatuo-26M, a Large-scale Chinese Medical QA Dataset [29.1]
本稿では,2600万対のQAペアを用いた医療質問応答(QA)データセットをリリースする。 検索と生成の両方の観点から、データセットの既存のアプローチをベンチマークします。 このデータセットは、医学研究に貢献するだけでなく、患者と臨床医の両方にも役立ちます。
論文 参考訳(メタデータ) (Tue, 2 May 2023 15:33:01 GMT) - 2600万QAペアと非常に大規模な医療ドメインのQAデータセット、言語は中国語
- リポジトリはGitHub – FreedomIntelligence/Huatuo-26M: The Largest-scale Chinese Medical QA Dataset: with 26,000,000 question answer pairs.
タグ: データセット
Multimodal C4
- Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text [104.0]
テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。 このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。 我々はMultimodal C4 (mmc4) をリリースした。
論文 参考訳(メタデータ) (Fri, 14 Apr 2023 06:17:46 GMT) - 非常にありがたいマルチモーダルなデータセット。103Mドキュメント、585Mイメージ、43Btokenと大規模。
- 「mmc4 is constructed from public webpages contained in the cleaned English c4 corpus.」とのことで日本語はほぼ入っていなさそう・・・
- プロジェクトサイトはGitHub – allenai/mmc4: MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.
SportsMOT
- SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes [44.5]
本稿では,emphSportsMOTと呼ばれる多種多様なスポーツシーンにおける大規模多目的追跡データセットを提案する。 240のビデオシーケンス、150Kフレーム以上、およびバスケットボール、バレーボール、サッカーを含む3つのスポーツカテゴリーから収集された1.6M以上のバウンディングボックスで構成されている。 本稿では,emphMixSortと呼ばれる新しい多対象追跡フレームワークを提案する。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 12:23:36 GMT) - スポーツを対象としたマルチオブジェクトトラッキングデータセット
- 動きが激しく、見た目での区別がつきそうでつかないという難しそうなデータだという印象
- SportsMOT Dataset – DeeperAction
MoocRadar
- MoocRadar: A Fine-grained and Multi-aspect Knowledge Repository for Improving Cognitive Student Modeling in MOOCs [39.2]
MoocRadarは,2,513のエクササイズ質問,5,600の知識概念,1200万以上の行動記録からなる,きめ細かい多面的知識リポジトリである。 具体的には,詳細な概念や認知ラベルの高品質かつ包括的アノテーションを保証する枠組みを提案する。
論文 参考訳(メタデータ) (Wed, 5 Apr 2023 03:36:40 GMT) - MOOCに関連するデータセット。14,226人の学生のデータでもあり、この量が公開されているのはびっくり。
- リポジトリはGitHub – THU-KEG/MOOC-Radar: The data and source code for the paper “MoocRadar: A Fine-grained and Multi-aspect Knowledge Repository for Improving Cognitive Student Modeling in MOOCs”
GOAL: knowledgeGrounded videO cAptioning benchmark for reaLtime soccer commentary generation
- GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation [42.0]
我々は,KGVC(Knowledge-grounded Video Captioning)として,サッカービデオクリップ8.9k,文22k,知識3分の3以上のベンチマークを提示する。 我々は,既存の手法を実験的に適用し,この課題の解決の難しさと可能性を示す。
論文 参考訳(メタデータ) (Sun, 26 Mar 2023 08:43:36 GMT) - かなり無理やり感のある略称のベンチマークデータセット。規模が大きく面白いものではあるが、略称が(以下略)
- KGVC: knowledgegrounded video captioningタスクとしてかなり難しいデータであるとのこと(そもそもこのタスクは相当困難な気はする)
- Our dataset will be publicly available after reviewらしい
MGTBench: Machine-Generated Textの検出ベンチマーク
- MGTBench: Benchmarking Machine-Generated Text Detection [27.7]
大規模言語モデル(LLM)は、人間によって書かれたテキストと区別が難しいような、人間のような言語を生成することができる。 MGTに対する既存の検出方法は、異なるモデルアーキテクチャ、データセット、実験的な設定で評価される。 我々はMGTBenchというMGT検出のための最初のベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (Sun, 26 Mar 2023 21:12:36 GMT) - 機械で生成されたテキストを検出可能かのベンチマーク。GitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥が好成績とのこと。一方で「We find that, with only small perturbations on the MGTs, ChatGPT Detector can be easily bypassed」という記載は気になる。
- リポジトリはGitHub – xinleihe/MGTBench
PosterLayout
- PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout [62.1]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。 本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。 CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (Tue, 28 Mar 2023 12:48:36 GMT) - ポスターのレイアウトを扱うベンチマーク。画像生成が現実的になっている中、センスが問われるこの手のレイアウトは良い問題なのかもしれない。
- リポジトリはGitHub – PKU-ICST-MIPL/PosterLayout-CVPR2023: Official repository for “PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout” (CVPR 2023).
The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling
- The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。 本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文 参考訳(メタデータ) (Thu, 30 Mar 2023 06:42:22 GMT) - デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile(800GB)以上の規模で大規模言語モデル構築で十分機能するデータ量
- 日本語データを作ってみたいなーと思いつつ、参考になる情報(データセットが構築できても計算環境が厳しいが…)
MUG: Meeting Understanding and Generation benchmark
- MUG: A General Meeting Understanding and Generation Benchmark [60.1]
我々はAliMeeting4MUG Corpusを構築した。 本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
論文 参考訳(メタデータ) (Fri, 24 Mar 2023 11:52:25 GMT) - 会議の理解と生成に関するデータセット
- SLP(spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
- サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
- リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)
PRESTO
- PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs [39.6]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。 現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。 我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文 参考訳(メタデータ) (Fri, 17 Mar 2023 02:26:52 GMT) - 多言語の会話データセット550K-examples、6言語と大規模。日本語が入っているのがうれしい。ライセンスはクリエイティブ・コモンズ — 表示 4.0 インターナショナル — CC BY 4.0 (creativecommons.org)
- リポジトリはGitHub – google-research-datasets/presto: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs