- TGDataset: a Collection of Over One Hundred Thousand Telegram Channels [69.2]
本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。 我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。 生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
論文 参考訳(メタデータ) (Thu, 9 Mar 2023 15:42:38 GMT) - 120,979のTelegramチャネルと4億以上のメッセージを含む巨大なデータセット、約460 GB、snowball approach(シードとなるチャネルから初めて送信元チャネルを取得していく)で作成されたとのこと。
- リポジトリはGitHub – SystemsLab-Sapienza/TGDataset: A collection of over 120’000 Telegram Channels、TGDataset | Zenodo