A diverse Multilingual News Headlines Dataset from around the World
A diverse Multilingual News Headlines Dataset from around the World [57.4] Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。 言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。 論文参考訳(メタデータ) (Thu, 28 Mar 2024 12:08:39 GMT)
「BABEL BRIEFINGS is a novel dataset featuring 4.7 million news headlines from August 2020 to November 2021, across 30 languages and 54 locations worldwide with English translations of all articles included.」という貴重なデータセット、日本語も12万件程度入っているよう。