BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation

BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.5]
このデータセットは、まず英語以外の言語で手作りされている。それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
論文参考訳（メタデータ） (Thu, 06 Feb 2025 18:56:37 GMT)
翻訳用ベンチマーク、「Non-English-centric focus. Source-BOUQuET is handcrafted by proficient speakers of French, German, Hindi, Indonesian, Mandarin Chinese, Russian, and Spanish.」というのが特徴的
プロジェクトサイトはBouquet – a Hugging Face Space by facebook

近い報告として文書レベルのデータセットも提案されていた。

DOLFIN — Document-Level Financial test set for Machine Translation [5.3]
文書レベル機械翻訳(MT)専用のテストセットを提案する。データセットは、専門の財務文書から構築される。テストセットは5つの言語ペアに対する1950年の平均的なアライメントセクションで構成されている。
論文参考訳（メタデータ） (Wed, 05 Feb 2025 10:30:40 GMT)
「en、fr、es、it、de」が対象、リポジトリはLinguaCustodia/dolfin · Datasets at Hugging Face

コメントを残す

コメントを残す コメントをキャンセル