機械翻訳 – ページ 5 – arXiv最新論文の紹介

OCRデータは機械翻訳モデルの性能を向上させるか

OCR Improves Machine Translation for Low-Resource Languages [10.0]
我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるOCR4MTを導入し,公開する。我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。次に,OCRエラーが機械翻訳性能に与える影響について検討する。
論文参考訳（メタデータ） (Sun, 27 Feb 2022 02:36:45 GMT)
- OCRによって得られたモノリンガルデータは（リソースが少ない言語の）械翻訳モデルの性能向上に有効という論文。OCRエラーのタイプ別にも分析がされており、「replacement OCR error」が機械翻訳モデルに最もダメージを与えるとのこと。
- 現時点ではデータ等はアップされていない。

MSCTD(Multimodal Sentiment Chat Translation Dataset): マルチモーダルな機械翻訳データセット

MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.8]
マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。 MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
論文参考訳（メタデータ） (Mon, 28 Feb 2022 09:40:46 GMT)
- マルチモーダル（画像＋テキスト）な機械翻訳データセットと対話勘定分析データセット。17.8K対話、173K発話・画像と大規模。ベースラインモデルも提供されており、画像を併用した方が性能が向上している。
- リポジトリはGitHub – XL2248/MSCTD、現時点ではデータ等はアップされていない。。。

JParaCrawl v3.0: 日英パラレルコーパス

JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [30.5]
本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。 JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
論文参考訳（メタデータ） (Fri, 25 Feb 2022 10:52:00 GMT)
- JParaCrawlのバージョン3、このデータで作成されたモデルの性能が大幅に上がっている。パラレルコーパスの公開は非常にありがたい（商用利用はできないなどライセンスには注意が必要）
  - 論文に書かれた性能だとFuguMTより上そう。。。強化が必要だな。。。
- プロジェクトサイトはJParaCrawl (ntt.co.jp)

Textless Speech-to-Speech Translation

Textless Speech-to-Speech Translation on Real Data [49.1]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (Wed, 15 Dec 2021 18:56:35 GMT)
- FacebookAIがMetaAIになっていた。はおいておいて、S2ST（Speech-to-Speech Translation ）を使った論文。話者間で共通の語彙となるような音声正規化手法（self-supervised unit-based speech normalization process）を提案、テキストレスで機械翻訳を実現。思ったよりBLEUも高くて驚いた。
- コード等も公開予定とのこと。

マルチリンガルなCommonsense Reasoning

Leveraging Knowledge in Multilingual Commonsense Reasoning [25.2]
本稿では,翻訳・検索・翻訳(TRT)戦略を用いて,英語の知識ソースを活用することを提案する。多言語コモンセンスの質問や選択に対して,知識ソースからの翻訳や検索を通じて関連する知識を収集する。検索した知識は対象言語に翻訳され、事前訓練された多言語言語モデルに統合される。
論文参考訳（メタデータ） (Sat, 16 Oct 2021 03:51:53 GMT)
- 処理中に機械翻訳を用いるタイプのマルチリンガルな自然言語処理のアプローチ。XCSRで優れた性能とのこと。言語資源が英語に偏っているのは事実で機械翻訳モデルを用いるアプローチが強力そうなのは直感的には明らか。マルチリンガルモデルを用いるより機械翻訳を挟む方が性能が優れている事例は複数あるが、事前学習モデルの性能、機械翻訳モデルの性能など考慮すべき前提条件が多く、どのあたりがその境目になるのか興味がある。

マルチタスク・マルチリンガルのための大規模・効率的なMoE(Mixture of Experts)学習

Scalable and Efficient MoE Training for Multitask Multilingual Models [56.0]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (Wed, 22 Sep 2021 00:57:46 GMT)
- 極めて大規模なモデルを構築可能な手法に関する論文。既存手法に比べて同じハードウェアで8倍のモデルサイズの学習を実現。
- 構築された機械翻訳モデルの学習効率と性能が凄い。denseなモデルに比べて10倍収束が速い。単純な個別のバイリンガルモデルにくらべてマルチリンガル設定でBLEU +4pt、M2M-100に比べてBLEU + 3pt。などすごい数値が並んでいる。
- リポジトリはhttps://github.com/microsoft/DeepSpeed、チュートリアルへのリンクもあって非常に参考になる。

翻訳した要約データは使えるか？

Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文参考訳（メタデータ） (Thu, 16 Sep 2021 17:35:01 GMT)
- SummEvalをHelsinki-NLPで翻訳したデータを評価、各種メトリクスは変動するものの順位が変動するほどのものではなく、英語のアノテーションを機械翻訳したデータでも使えるのでは？という結論。

HintedBT: Back Translationの効率化

HintedBT: Augmenting Back-Translation with Quality and Transliteration Hints [7.5]
標的単言語コーパスのバックトランスレーションは、ニューラルマシン翻訳(NMT)に広く用いられているデータ拡張戦略である私たちは、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介します。これらのヒントを別々に使用することで翻訳品質が大幅に向上することを示す。
論文参考訳（メタデータ）参考訳（全文） (Thu, 9 Sep 2021 17:43:20 GMT)
- 高品質BTデータと低品質BTデータについてタグを付与することによりBack Translationの有効性を上げられるとの報告。LaBSEによるHintが有効とのことでマルチリンガルな分散表現の活用は有効のよう。（FuguMTでも使わせてもらっている）

Survey of Low-Resource Machine Translation: データが少ない言語の機械翻訳

Survey of Low-Resource Machine Translation [65.5]
現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
論文参考訳（メタデータ） (Wed, 1 Sep 2021 16:57:58 GMT)
- （特に）低リソースの言語に対して機械翻訳モデルの状況を調査したサーベイ。主にパラレルコーパスのデータソース（収集・作成）、モノリンガルデータの活用、マルチリンガルデータ・モデルの活用、タグ付けや構文解析など機械翻訳以外の言語リソース活用、モデル構築・推論の改善、高度化など幅広い内容が扱われている。日英翻訳はリソースが多い言語ペアであると思うが、参考になる情報は多い。

PMT(Product-oriented Machine Translation): 製品指向の機械翻訳

Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-training [47.2]
製品指向機械翻訳(PMT)は、世界中のeショップ向けに必要不可欠である。ドメインの専門性のため、PMTタスクは従来の機械翻訳問題よりも難しい。本稿では,Fashion-MMTと呼ばれる大規模バイリンガル製品記述データセットを最初に構築する。製品指向のクロスモーダル言語モデル(upoc2)を事前学習と微調整のために設計する。
論文参考訳（メタデータ） (Wed, 25 Aug 2021 08:36:01 GMT)
- 製品説明のような状況では画像を用いてクロスモーダルな機械翻訳を行うことが重要とした論文。Unified Product-Oriented Cross-modal Cross-lingual model (UPOC2) を提案。
- マルチモーダル性を利用した翻訳が広まっていくと面白いと思う。個人的には顔画像の感情分析を併用したようなモデルを作ってみたいと思ったり思わなかったり。
- リポジトリはhttps://github.com/syuqings/Fashion-MMT

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31