コンテンツへスキップ
- Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。 本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (Thu, 16 Sep 2021 17:35:01 GMT)- SummEvalをHelsinki-NLPで翻訳したデータを評価、各種メトリクスは変動するものの順位が変動するほどのものではなく、英語のアノテーションを機械翻訳したデータでも使えるのでは?という結論。
- HintedBT: Augmenting Back-Translation with Quality and Transliteration Hints [7.5]
標的単言語コーパスのバックトランスレーションは、ニューラルマシン翻訳(NMT)に広く用いられているデータ拡張戦略である 私たちは、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介します。 これらのヒントを別々に使用することで翻訳品質が大幅に向上することを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 9 Sep 2021 17:43:20 GMT)- 高品質BTデータと低品質BTデータについてタグを付与することによりBack Translationの有効性を上げられるとの報告。LaBSEによるHintが有効とのことでマルチリンガルな分散表現の活用は有効のよう。(FuguMTでも使わせてもらっている)
- Survey of Low-Resource Machine Translation [65.5]
現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。 翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
論文 参考訳(メタデータ) (Wed, 1 Sep 2021 16:57:58 GMT)- (特に)低リソースの言語に対して機械翻訳モデルの状況を調査したサーベイ。主にパラレルコーパスのデータソース(収集・作成)、モノリンガルデータの活用、マルチリンガルデータ・モデルの活用、タグ付けや構文解析など機械翻訳以外の言語リソース活用、モデル構築・推論の改善、高度化など幅広い内容が扱われている。日英翻訳はリソースが多い言語ペアであると思うが、参考になる情報は多い。
- Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-training [47.2]
製品指向機械翻訳(PMT)は、世界中のeショップ向けに必要不可欠である。 ドメインの専門性のため、PMTタスクは従来の機械翻訳問題よりも難しい。 本稿では,Fashion-MMTと呼ばれる大規模バイリンガル製品記述データセットを最初に構築する。 製品指向のクロスモーダル言語モデル(upoc2)を事前学習と微調整のために設計する。
論文 参考訳(メタデータ) (Wed, 25 Aug 2021 08:36:01 GMT)- 製品説明のような状況では画像を用いてクロスモーダルな機械翻訳を行うことが重要とした論文。Unified Product-Oriented Cross-modal Cross-lingual model (UPOC2) を提案。
- マルチモーダル性を利用した翻訳が広まっていくと面白いと思う。個人的には顔画像の感情分析を併用したようなモデルを作ってみたいと思ったり思わなかったり。
- リポジトリはhttps://github.com/syuqings/Fashion-MMT
- Difficulty-Aware Machine Translation Evaluation [20.0]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。 ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。 提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文 参考訳(メタデータ) (Fri, 30 Jul 2021 02:45:36 GMT)- BERTScore をベースに翻訳の難しさ(複数翻訳モデルの一致の悪さ)を考慮したDifficulty-Aware BERTScoreを定義、評価指標として有効に動作することを検証した論文。よく用いられるBLEUは翻訳の品質評価において良好な結果を示さないことが分かっており、自動評価指標の開発は重要である。品質評価において難易度の考慮は自然な発想であり、本論文の難易度の定義も違和感がない。良さそうな指標だと思う。
- ソースコード等はhttps://github.com/NLP2CT/Difficulty-Aware-MT-Evaluationで公開されている。
- To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation [6.0]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。 BLEUのみの使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (Thu, 22 Jul 2021 17:22:22 GMT)
- DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders [92.9]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。 具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己教師ありで事前学習する。 実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (Fri, 25 Jun 2021 16:12:10 GMT)- こちらは事前学習された言語生成(機械翻訳)用のエンコーダ・デコーダアーキテクチャのモデル。パラメータが少ないにもかかわらずmBARTやmT5、M2M-100を上回る性能。
- ∆LMは32 V100 GPUで1週間の計算コストと mBART(256 GPUで2.5週間)に比べ低コスト(?)での学習が可能とのこと。
- Language Models are Good Translators [63.5]
単一言語モデル(LM4MT)は,強力なエンコーダデコーダNMTモデルと同等の性能が得られることを示す。 ピボットベースおよびゼロショット変換タスクの実験により、LM4MTはエンコーダ・デコーダのNMTモデルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (Fri, 25 Jun 2021 13:30:29 GMT)- 現状のニューラル機械翻訳ではエンコーダ・デコーダ型のアーキテクチャが良く用いられるが言語モデルのアーキテクチャでも十分な性能が得られたとの報告。多言語間で統一的な内部表現であることからかmultilingual NMT のゼロショット翻訳ではtransformerより優れているとのこと。
- Neural Machine Translation with Monolingual Translation Memory [59.0]
本稿では,モノリンガルメモリを用いて学習可能なメモリ検索を行う新しいフレームワークを提案する。 実験の結果,提案手法は大幅な改善が得られた。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 24 May 2021 13:35:19 GMT)- それは翻訳メモリと呼ぶのかとは思いつつ、スコアリング、ランキングに単言語翻訳メモリを用いるのは効果的そうだなと思う。
- Do Context-Aware Translation Models Pay the Right Attention? [61.3]
コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。 本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。 SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。 SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
論文 参考訳(メタデータ) (Fri, 14 May 2021 17:32:24 GMT)- 機械翻訳における文脈の取り込みの研究とSCAT(Supporting Context for Ambiguous Translations)データセットの紹介
- 現時点ではデータセットは公開されていない?