- TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media Posts [23.2]
Redditのディスカッションフォーラムから抽出された900万以上のトレーニングインスタンスを含む、大規模な要約データセットを紹介します。 このデータセットは、極端な要約(すなわち、高い圧縮と抽象化で1文の要約を生成する)を行うために特別に収集され、以前提案されたデータセットの2倍以上の大きさである。
論文 参考訳(メタデータ) (Mon, 4 Oct 2021 02:40:55 GMT)- Redditから取得された要約用大規模データセット。クオリティの高いデータを集めたTLDRHQでも1.67Mと規模が大きい。
- リポジトリはhttps://github.com/sajastu/reddit_collector