- BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.5]
このデータセットは、まず英語以外の言語で手作りされている。 それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
論文 参考訳(メタデータ) (Thu, 06 Feb 2025 18:56:37 GMT) - 翻訳用ベンチマーク、「Non-English-centric focus. Source-BOUQuET is handcrafted by proficient speakers of French, German, Hindi, Indonesian, Mandarin Chinese, Russian, and Spanish.」というのが特徴的
- プロジェクトサイトはBouquet – a Hugging Face Space by facebook
近い報告として文書レベルのデータセットも提案されていた。
- DOLFIN — Document-Level Financial test set for Machine Translation [5.3]
文書レベル機械翻訳(MT)専用のテストセットを提案する。 データセットは、専門の財務文書から構築される。 テストセットは5つの言語ペアに対する1950年の平均的なアライメントセクションで構成されている。
論文 参考訳(メタデータ) (Wed, 05 Feb 2025 10:30:40 GMT) - 「en、fr、es、it、de」が対象、リポジトリはLinguaCustodia/dolfin · Datasets at Hugging Face