SumTablets: A Transliteration Dataset of Sumerian Tablets 

  • SumTablets: A Transliteration Dataset of Sumerian Tablets [28.7]
    SumTablets は Unicode 表現を 91,606 で組み合わせたデータセットである。 私たちは、Hugging FaceデータセットとしてSumTabletsをリリースし、GitHub経由でオープンソースのデータ準備コードを作成しました。 我々の微調整言語モデルは平均文字レベルFスコア(chrF)97.55を達成する。
    論文  参考訳(メタデータ)   (Wed, 25 Feb 2026 18:50:42 GMT)
  • 「the absence of a comprehensive, accessible dataset pairing transliterations with a digital representation of the tablet’s cuneiform glyphs has prevented the application of modern Natural Language Processing (NLP) methods to the task of Sumerian transliteration. To address this gap, we present SumTablets, a dataset pairing Unicode representations of 91,606 Sumerian cuneiform tablets (totaling 6,970,407 glyphs) with the associated transliterations published by Oracc.」というデータセット。
  • リポジトリはGitHub – colesimmons/SumTablets: SumTablets is a dataset designed for training Sumerian transliteration models.、データセットはcolesimmons/SumTablets · Datasets at Hugging Face