BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation

  • BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.5]
    このデータセットは、まず英語以外の言語で手作りされている。 それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
    論文  参考訳(メタデータ)   (Thu, 06 Feb 2025 18:56:37 GMT)
  • 翻訳用ベンチマーク、「Non-English-centric focus. Source-BOUQuET is handcrafted by proficient speakers of French, German, Hindi, Indonesian, Mandarin Chinese, Russian, and Spanish.」というのが特徴的
  • プロジェクトサイトはBouquet – a Hugging Face Space by facebook

近い報告として文書レベルのデータセットも提案されていた。

  • DOLFIN — Document-Level Financial test set for Machine Translation [5.3]
    文書レベル機械翻訳(MT)専用のテストセットを提案する。 データセットは、専門の財務文書から構築される。 テストセットは5つの言語ペアに対する1950年の平均的なアライメントセクションで構成されている。
    論文  参考訳(メタデータ)   (Wed, 05 Feb 2025 10:30:40 GMT)
  • 「en、fr、es、it、de」が対象、リポジトリはLinguaCustodia/dolfin · Datasets at Hugging Face

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です