大規模QAデータセット、大規模ビデオデータセット

GooAQ: Open Question Answering with Diverse Answer Types [63.1]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。このデータセットには500万の質問と300万の回答が含まれている。
論文参考訳（メタデータ） (Sun, 18 Apr 2021 05:40:39 GMT)
- Googleから抽出されたQAデータセット。規約的にこのようなことをやってよいのか疑問ではあるが、貴重なデータであることは確か。
- https://github.com/allenai/gooaq

Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.9]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文参考訳（メタデータ）参考訳（全文） (Mon, 19 Apr 2021 15:58:45 GMT)
- 中国語の大規模ビデオ＋言語データセット
- 中国語のデータセット構築も非常に盛んな印象がある。

コメントを残すコメントをキャンセル