Democratizing Machine Translation with OPUS-MT

  • Democratizing Machine Translation with OPUS-MT [56.2]
    本稿では,オープン機械翻訳モデルとツールの開発に焦点をあて,OPUSエコシステムについて述べる。 我々は現在進行中の言語カバレッジと翻訳品質向上のミッションについて論じるとともに,モジュール型翻訳モデルの開発に向けた取り組みについても述べる。
    論文  参考訳(メタデータ)   (Sun, 4 Dec 2022 22:16:27 GMT)
  • OPUSエコシステムとオープンな機械翻訳モデルに関する報告。
  • OPUSを直接的に使っているわけではないがFuguMT開発でも貴重な情報源だった。オープンな機械翻訳モデルは重要で素晴らしい取り組みであると思う。(FuguMT 英語→日本語日本語→英語多言語→日本語もCC BY SAとオープンなモデルの一つと宣伝、冬休みにはPLM利用版を公開したいなーと思っている)

Prompting PaLM for Translation

  • Prompting PaLM for Translation: Assessing Strategies and Performance [16.7]
    経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。 我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
    論文  参考訳(メタデータ)   (Wed, 16 Nov 2022 18:42:37 GMT)
    • 機械翻訳へのPaLM適用の取り組み
    • 様々な手法を比較しているが、現状では教師有りな仕組みには及ばないとのこと。(及ばないとはいえ善戦とはいえるような気はしないでもない)

CsaNMT: Continuous Semantic Augmentationを用いたニューラル機械翻訳

Automatic Song Translation: 歌詞の自動翻訳

  • Automatic Song Translation for Tonal Languages [23.1]
    歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。 自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 02:25:33 GMT)
    • 歌詞の翻訳は元の意味を保持することに加えて、既存の音楽の韻律に一致する必要があり難しい。音素だけでなく発音によって意味が異なる言語の場合は問題が大きい。著者らはこのタスクを定義、データセットを作成、モデル構築(翻訳モデル構築では外部データを活用)を行っている。下記サイトのデモが面白い(が中国語が分からないので、翻訳の有効性が確認できず残念)。
    • リポジトリはAutomatic Song Translation for Tonal Languages (with Demo) (gagast.github.io)

句レベルの画像表現を用いたニューラル機械翻訳

  • Neural Machine Translation with Phrase-Level Universal Visual Representations [11.1]
    既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。 提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。 実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
    論文  参考訳(メタデータ)   (Sat, 19 Mar 2022 11:21:13 GMT)

UDAAN :機械学習支援のポストエディットツール

  • UDAAN – Machine Learning based Post-Editing tool for Document Translation [16.1]
    UDAANはオープンソースのポスト編集ツールで、さまざまな言語で公開可能な標準文書を作成するために、手作業による編集作業を減らすことができる。 UDAANにはエンドツーエンドの機械翻訳と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。 本ツールでは,文書をスクラッチから翻訳する基本手法と比較して,翻訳時間を約3倍に高速化する。
    論文  参考訳(メタデータ)   (Thu, 3 Mar 2022 11:08:16 GMT)
    • あまり見かけないオープンソースのポストエディットツール。論文やツール紹介は英語/ヒンディー語が対象だがツールは言語とは独立とのこと。
    • リポジトリはGitHub – ayushbits/udaan-post-editing

過剰または過小翻訳部分の検出

  • As Little as Possible, as Much as Necessary: Detecting Over- and Undertranslations with Contrastive Conditioning [42.5]
    本稿では,ニューラルマシン翻訳における過剰な単語の検出手法を提案する。 我々は,翻訳モデルに基づく全列の確率と,対応するソースやターゲットシーケンスを考慮に入れた部分の確率を比較する。 これにより、参照翻訳がなくても、翻訳中の過剰な単語とソース内の未翻訳の単語をピンポイントで特定することができる。
    論文  参考訳(メタデータ)   (Thu, 3 Mar 2022 18:59:02 GMT)
    • 翻訳エラーを検出するための手法提案。一部を削除しながら逆翻訳を行うアプローチのよう。
    • USEやLaBSEなどマルチリンガルモデルな分散表現を用いるような事もできそうに思った。(対訳ペアを取るには非常に有効だし)

DeepNet: 1000層のTransformer

  • DeepNet: Scaling Transformers to 1,000 Layers [106.3]
    トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。 詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。 トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
    論文  参考訳(メタデータ)   (Tue, 1 Mar 2022 15:36:38 GMT)

OCRデータは機械翻訳モデルの性能を向上させるか

  • OCR Improves Machine Translation for Low-Resource Languages [10.0]
    我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるOCR4MTを導入し,公開する。 我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。 次に,OCRエラーが機械翻訳性能に与える影響について検討する。
    論文  参考訳(メタデータ)   (Sun, 27 Feb 2022 02:36:45 GMT)
    •  OCRによって得られたモノリンガルデータは(リソースが少ない言語の)械翻訳モデルの性能向上に有効という論文。OCRエラーのタイプ別にも分析がされており、「replacement OCR error」が機械翻訳モデルに最もダメージを与えるとのこと。
    • 現時点ではデータ等はアップされていない。

DoT: Denoising Training によるニューラル機械翻訳の改善

  • Improving Neural Machine Translation by Denoising Training [96.0]
    本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。 モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。 実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 20 Jan 2022 03:55:52 GMT)