To Ship or Not to ship: 機械翻訳の評価指標

  • To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation [6.0]
    システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。 BLEUのみの使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
    論文  参考訳(メタデータ)   (Thu, 22 Jul 2021 17:22:22 GMT)
    • 機械翻訳モデルが複数あったときにどのモデルをリリースすべきかは悩ましい問題である(FuguMTでも最終的には目検を行った後にリリースモデルを決めている)。この論文では幅広い検証の結果、BLEUは使用すべきではなくCOMET(使用不可の言語の場合はChrF)の使用を推奨している。
    • リポジトリはhttps://github.com/MicrosoftTranslator/ToShipOrNotToShipであり、今後詳細を公開予定とのこと。
    • COMETのリポジトリはhttps://github.com/Unbabel/COMETにある。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です