To Ship or Not to ship: 機械翻訳の評価指標

To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation [6.0]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。 BLEUのみの使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文参考訳（メタデータ） (Thu, 22 Jul 2021 17:22:22 GMT)
- 機械翻訳モデルが複数あったときにどのモデルをリリースすべきかは悩ましい問題である（FuguMTでも最終的には目検を行った後にリリースモデルを決めている）。この論文では幅広い検証の結果、BLEUは使用すべきではなくCOMET（使用不可の言語の場合はChrF）の使用を推奨している。
- リポジトリはhttps://github.com/MicrosoftTranslator/ToShipOrNotToShipであり、今後詳細を公開予定とのこと。
- COMETのリポジトリはhttps://github.com/Unbabel/COMETにある。

コメントを残す

コメントを残す コメントをキャンセル