PhoMT: ベトナム語-英語のパラレルコーパス

  • PhoMT: A High-Quality and Large-Scale Benchmark Dataset for Vietnamese-English Machine Translation [7.0]
    3.02M文対のベトナム語-英語並列データセットを高品質かつ大規模に導入する。 これはベトナム語と英語の機械翻訳コーパスIWSLT15より2.9M大きい。 自動・人両方の評価において、事前訓練されたシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することにより、最高の性能が得られる。
    論文  参考訳(メタデータ)   (Sat, 23 Oct 2021 11:42:01 GMT)
    • 3Mの対訳ペアからなるベトナム語-英語のパラレルコーパスの提案。Google Translateを用いた対訳ペアアライメントやフィルタリングの方法などが興味深い。mBARTを用いて機械翻訳で優れた性能を出せたとのことだが、Google TranslateやBing Translatorの比較ではドメイン外データの結果が気になるところ。
    • リポジトリはhttps://github.com/VinAIResearch/PhoMTとのことだが、現時点では404

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です