A diverse Multilingual News Headlines Dataset from around the World

  • A diverse Multilingual News Headlines Dataset from around the World [57.4]
    Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。 言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 12:08:39 GMT)
  • 「BABEL BRIEFINGS is a novel dataset featuring 4.7 million news headlines from August 2020 to November 2021, across 30 languages and 54 locations worldwide with English translations of all articles included.」という貴重なデータセット、日本語も12万件程度入っているよう。
  • リポジトリはfelixludos/babel-briefings · Datasets at Hugging Face ライセンスはCC BY-NC-SA 4.0と商用利用は禁止されている。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です