BART – arXiv最新論文の紹介

PhoMT: ベトナム語-英語のパラレルコーパス

PhoMT: A High-Quality and Large-Scale Benchmark Dataset for Vietnamese-English Machine Translation [7.0]
3.02M文対のベトナム語-英語並列データセットを高品質かつ大規模に導入する。これはベトナム語と英語の機械翻訳コーパスIWSLT15より2.9M大きい。自動・人両方の評価において、事前訓練されたシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することにより、最高の性能が得られる。
論文参考訳（メタデータ） (Sat, 23 Oct 2021 11:42:01 GMT)
- 3Mの対訳ペアからなるベトナム語-英語のパラレルコーパスの提案。Google Translateを用いた対訳ペアアライメントやフィルタリングの方法などが興味深い。mBARTを用いて機械翻訳で優れた性能を出せたとのことだが、Google TranslateやBing Translatorの比較ではドメイン外データの結果が気になるところ。
- リポジトリはhttps://github.com/VinAIResearch/PhoMTとのことだが、現時点では404

Multilingual Unsupervised Neural Machine Translation with Denoising Adapters [77.8]
単言語データのみを持つ言語を翻訳・翻訳する多言語無教師機械翻訳の問題点を考察する。この問題に対して、モノリンガルデータを活用するための標準的な手順は、計算コストが高くチューニングが難しいバックトランスレーションである。本稿では,事前学習したmBART-50上に,デノナイジング対象のアダプタ層であるデノナイジングアダプタを使用することを提案する。
論文参考訳（メタデータ） (Wed, 20 Oct 2021 10:18:29 GMT)
- mBART-50にアダプタ層を付け加えることによって破壊的な忘却を防止しながら性能の高い機械翻訳モデルを構築可能という報告。教師無し＆単言語データを主たる対象にしている。新しい言語でmBARTを拡張できるとか非常に興味深い結果。

BARTScore: Evaluating Generated Text as Text Generation [89.5]
我々は、事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化されたテキスト生成問題として、生成されたテキストの評価を概念化する。我々は、エンコーダ-デコーダベースの事前学習モデルであるBARTを用いて、このアイデアを運用する。本稿では,様々な視点からテキストの評価に柔軟に適用可能な,数多くの変種を持つメトリクスBARTScoreを提案する。
論文参考訳（メタデータ） (Tue, 22 Jun 2021 03:20:53 GMT)
- seq2seqなBARTを用いた評価指標。BERT Scoreなど（名前も）似た指標に比べても優位性があるとのこと。機械翻訳、機械要約ともに評価は悩ましい問題でありこのような手法は重要。