- BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine Translation [53.6]
自動編集によりマイニングした対訳ペアを改良することを提案する。 提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングバイテキストの品質を向上することを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 12 Nov 2021 16:00:39 GMT)- CCMatrixなど自動で作成された対訳ペア(Bitext)には問題のあるテキストが存在する。それらをフィルタリングするのが通常の対応だが、データ数の減少が問題となる。データフィルタリングするのではなく編集することによって翻訳モデルの性能が向上できたとの報告。
- 不適切になった理由によっては有効そうという印象。
- CCMatrixなど自動で作成された対訳ペア(Bitext)には問題のあるテキストが存在する。それらをフィルタリングするのが通常の対応だが、データ数の減少が問題となる。データフィルタリングするのではなく編集することによって翻訳モデルの性能が向上できたとの報告。