Democratizing Machine Translation with OPUS-MT

  • Democratizing Machine Translation with OPUS-MT [56.2]
    本稿では,オープン機械翻訳モデルとツールの開発に焦点をあて,OPUSエコシステムについて述べる。 我々は現在進行中の言語カバレッジと翻訳品質向上のミッションについて論じるとともに,モジュール型翻訳モデルの開発に向けた取り組みについても述べる。
    論文  参考訳(メタデータ)   (Sun, 4 Dec 2022 22:16:27 GMT)
  • OPUSエコシステムとオープンな機械翻訳モデルに関する報告。
  • OPUSを直接的に使っているわけではないがFuguMT開発でも貴重な情報源だった。オープンな機械翻訳モデルは重要で素晴らしい取り組みであると思う。(FuguMT 英語→日本語日本語→英語多言語→日本語もCC BY SAとオープンなモデルの一つと宣伝、冬休みにはPLM利用版を公開したいなーと思っている)

Simple and Effective Unsupervised Speech Translation

  • Simple and Effective Unsupervised Speech Translation [68.3]
    ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。 事前学習された音声モデルに対する教師なし領域適応手法を提案する。 実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
    論文  参考訳(メタデータ)   (Tue, 18 Oct 2022 22:26:13 GMT)
  • unsupervised なspeech-to-text translation (S2TT)とspeech-to-speech translation (S2ST)構築方法の提案。既存の知見をゴリゴリ使うアプローチで界隈の状況を知る上でも非常に参考になる。

DEMSD(Deep Encoder with Multiple Shallow Decoders )を使った多言語機械翻訳

  • Multilingual Neural Machine Translation with Deep Encoder and Multiple Shallow Decoders [77.2]
    本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。 2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
    論文  参考訳(メタデータ)   (Sun, 5 Jun 2022 01:15:04 GMT)
    • 機械翻訳では深いエンコーダと浅いデコーダの組み合わせが有効である。この論文では多対1の機械翻訳での有効性の検証、多対多機械翻訳の場合の対応を報告している。多対多機械翻訳ではデコーダ部分を複数の浅い構造とすることで翻訳性能と速度で良好な結果が出せたとのこと。

UDAAN :機械学習支援のポストエディットツール

  • UDAAN – Machine Learning based Post-Editing tool for Document Translation [16.1]
    UDAANはオープンソースのポスト編集ツールで、さまざまな言語で公開可能な標準文書を作成するために、手作業による編集作業を減らすことができる。 UDAANにはエンドツーエンドの機械翻訳と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。 本ツールでは,文書をスクラッチから翻訳する基本手法と比較して,翻訳時間を約3倍に高速化する。
    論文  参考訳(メタデータ)   (Thu, 3 Mar 2022 11:08:16 GMT)
    • あまり見かけないオープンソースのポストエディットツール。論文やツール紹介は英語/ヒンディー語が対象だがツールは言語とは独立とのこと。
    • リポジトリはGitHub – ayushbits/udaan-post-editing

OCRデータは機械翻訳モデルの性能を向上させるか

  • OCR Improves Machine Translation for Low-Resource Languages [10.0]
    我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるOCR4MTを導入し,公開する。 我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。 次に,OCRエラーが機械翻訳性能に与える影響について検討する。
    論文  参考訳(メタデータ)   (Sun, 27 Feb 2022 02:36:45 GMT)
    •  OCRによって得られたモノリンガルデータは(リソースが少ない言語の)械翻訳モデルの性能向上に有効という論文。OCRエラーのタイプ別にも分析がされており、「replacement OCR error」が機械翻訳モデルに最もダメージを与えるとのこと。
    • 現時点ではデータ等はアップされていない。

MSCTD(Multimodal Sentiment Chat Translation Dataset): マルチモーダルな機械翻訳データセット

  • MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.8]
    マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。 MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。 本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
    論文  参考訳(メタデータ)   (Mon, 28 Feb 2022 09:40:46 GMT)
    • マルチモーダル(画像+テキスト)な機械翻訳データセットと対話勘定分析データセット。17.8K対話、173K発話・画像と大規模。ベースラインモデルも提供されており、画像を併用した方が性能が向上している。
    • リポジトリはGitHub – XL2248/MSCTD、現時点ではデータ等はアップされていない。。。

JParaCrawl v3.0: 日英パラレルコーパス

  • JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [30.5]
    本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。 JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。 我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
    論文  参考訳(メタデータ)   (Fri, 25 Feb 2022 10:52:00 GMT)
    • JParaCrawlのバージョン3、このデータで作成されたモデルの性能が大幅に上がっている。パラレルコーパスの公開は非常にありがたい(商用利用はできないなどライセンスには注意が必要)
      • 論文に書かれた性能だとFuguMTより上そう。。。強化が必要だな。。。
    • プロジェクトサイトはJParaCrawl (ntt.co.jp)

Textless Speech-to-Speech Translation

  • Textless Speech-to-Speech Translation on Real Data [49.1]
    本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。 マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
    論文  参考訳(メタデータ)   (Wed, 15 Dec 2021 18:56:35 GMT)
    • FacebookAIがMetaAIになっていた。はおいておいて、S2ST(Speech-to-Speech Translation )を使った論文。話者間で共通の語彙となるような音声正規化手法(self-supervised unit-based speech normalization process)を提案、テキストレスで機械翻訳を実現。思ったよりBLEUも高くて驚いた。
    • コード等も公開予定とのこと。

マルチリンガルなCommonsense Reasoning

  • Leveraging Knowledge in Multilingual Commonsense Reasoning [25.2]
    本稿では,翻訳・検索・翻訳(TRT)戦略を用いて,英語の知識ソースを活用することを提案する。 多言語コモンセンスの質問や選択に対して,知識ソースからの翻訳や検索を通じて関連する知識を収集する。 検索した知識は対象言語に翻訳され、事前訓練された多言語言語モデルに統合される。
    論文  参考訳(メタデータ)   (Sat, 16 Oct 2021 03:51:53 GMT)
    • 処理中に機械翻訳を用いるタイプのマルチリンガルな自然言語処理のアプローチ。XCSRで優れた性能とのこと。言語資源が英語に偏っているのは事実で機械翻訳モデルを用いるアプローチが強力そうなのは直感的には明らか。マルチリンガルモデルを用いるより機械翻訳を挟む方が性能が優れている事例は複数あるが、事前学習モデルの性能、機械翻訳モデルの性能など考慮すべき前提条件が多く、どのあたりがその境目になるのか興味がある。

マルチタスク・マルチリンガルのための大規模・効率的なMoE(Mixture of Experts)学習

  • Scalable and Efficient MoE Training for Multitask Multilingual Models [56.0]
    我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。 また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
    論文  参考訳(メタデータ)   (Wed, 22 Sep 2021 00:57:46 GMT)
    • 極めて大規模なモデルを構築可能な手法に関する論文。既存手法に比べて同じハードウェアで8倍のモデルサイズの学習を実現。
    • 構築された機械翻訳モデルの学習効率と性能が凄い。denseなモデルに比べて10倍収束が速い。単純な個別のバイリンガルモデルにくらべてマルチリンガル設定でBLEU +4pt、M2M-100に比べてBLEU + 3pt。などすごい数値が並んでいる。
    • リポジトリはhttps://github.com/microsoft/DeepSpeed、チュートリアルへのリンクもあって非常に参考になる。