機械翻訳におけるScaling Law

  • Scaling Laws for Multilingual Neural Machine Translation [45.6]
    モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。 学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。 我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
    論文  参考訳(メタデータ)   (Sun, 19 Feb 2023 18:43:24 GMT)
  • マルチリンガルな機械翻訳におけるScaling Lawの検証結果。興味深い結果が多いが近しい言語のマルチリンガル翻訳は効果が大きいという説に対して「(En→{De, Fr})への翻訳を訓練したモデルと、非関連言語(En→{De, Zh})で訓練したモデルのスケーリング挙動に有意な差はみられない。」という結果は面白い。
  • staka/takomt · Hugging Faceとか個人でやるには結構大変で当面はJA⇔ENに注力しようと思っているがとても面白い論文。

ChatGPTと翻訳

  • Is ChatGPT A Good Translator? A Preliminary Study [39.2]
    翻訳能力を高めるためにChatGPTが推奨するプロンプトを採用する。 多くのベンチマークテストセットを評価することで、ChatGPTは商用翻訳製品と競争的に機能することがわかった。 ChatGPTは、生物医学の要約やRedditのコメントに関する商業システムのようには機能しない。
    論文  参考訳(メタデータ)   (Fri, 20 Jan 2023 08:51:36 GMT)
  • ChatGPTの翻訳性能を評価した論文。一般的にリソースが多いといわれている言語ペア(おそらくChatGPTの学習データに多い言語)についてはかなりの性能だが、そうでない言語は苦手としているよう。また、頑健性の意味でもイマイチな結果となっている。
  • とはいえ、Promptのみでの機械翻訳だと考えればかなり性能が高いという評価もできそう

Prompting Large Language Model for Machine Translation: A Case Study 

  • Prompting Large Language Model for Machine Translation: A Case Study [87.9]
    我々は機械翻訳戦略の推進に関する体系的研究を行っている。 本稿では,プロンプトテンプレートと実演例選択の要因について検討する。 本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
    論文  参考訳(メタデータ)   (Wed, 18 Jan 2023 11:30:05 GMT)
  • 機械翻訳のためのプロンプト戦略の検討
  • プロンプトテンプレートの作り方や最初の例の与え方が翻訳に大きく影響するようで、その点はそうだろうと思うが、一般的に有効な戦略を作るのはなかなか難しそうとの印象。

Understanding Translationese in Cross-Lingual Summarization

  • Understanding Translationese in Cross-Lingual Summarization [45.0]
    言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。 大規模なCRSサンプルを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。 本研究では,翻訳文がCLSモデルの評価と性能にどのような影響を及ぼすかを検討する。
    論文  参考訳(メタデータ)   (Wed, 14 Dec 2022 13:41:49 GMT)
  • 翻訳を介する要約生成における翻訳処理の影響をまとめた論文
  • 影響があるのは直感的にも間違いなく、少なくともテストでは機械翻訳の採用を避ける、学習時には機械翻訳を一部使う場合は品質差があることを前提とする・semi-supervisedの採用を検討するなど良い示唆がある。

Democratizing Machine Translation with OPUS-MT

  • Democratizing Machine Translation with OPUS-MT [56.2]
    本稿では,オープン機械翻訳モデルとツールの開発に焦点をあて,OPUSエコシステムについて述べる。 我々は現在進行中の言語カバレッジと翻訳品質向上のミッションについて論じるとともに,モジュール型翻訳モデルの開発に向けた取り組みについても述べる。
    論文  参考訳(メタデータ)   (Sun, 4 Dec 2022 22:16:27 GMT)
  • OPUSエコシステムとオープンな機械翻訳モデルに関する報告。
  • OPUSを直接的に使っているわけではないがFuguMT開発でも貴重な情報源だった。オープンな機械翻訳モデルは重要で素晴らしい取り組みであると思う。(FuguMT 英語→日本語日本語→英語多言語→日本語もCC BY SAとオープンなモデルの一つと宣伝、冬休みにはPLM利用版を公開したいなーと思っている)

Simple and Effective Unsupervised Speech Translation

  • Simple and Effective Unsupervised Speech Translation [68.3]
    ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。 事前学習された音声モデルに対する教師なし領域適応手法を提案する。 実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
    論文  参考訳(メタデータ)   (Tue, 18 Oct 2022 22:26:13 GMT)
  • unsupervised なspeech-to-text translation (S2TT)とspeech-to-speech translation (S2ST)構築方法の提案。既存の知見をゴリゴリ使うアプローチで界隈の状況を知る上でも非常に参考になる。

DEMSD(Deep Encoder with Multiple Shallow Decoders )を使った多言語機械翻訳

  • Multilingual Neural Machine Translation with Deep Encoder and Multiple Shallow Decoders [77.2]
    本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。 2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
    論文  参考訳(メタデータ)   (Sun, 5 Jun 2022 01:15:04 GMT)
    • 機械翻訳では深いエンコーダと浅いデコーダの組み合わせが有効である。この論文では多対1の機械翻訳での有効性の検証、多対多機械翻訳の場合の対応を報告している。多対多機械翻訳ではデコーダ部分を複数の浅い構造とすることで翻訳性能と速度で良好な結果が出せたとのこと。

UDAAN :機械学習支援のポストエディットツール

  • UDAAN – Machine Learning based Post-Editing tool for Document Translation [16.1]
    UDAANはオープンソースのポスト編集ツールで、さまざまな言語で公開可能な標準文書を作成するために、手作業による編集作業を減らすことができる。 UDAANにはエンドツーエンドの機械翻訳と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。 本ツールでは,文書をスクラッチから翻訳する基本手法と比較して,翻訳時間を約3倍に高速化する。
    論文  参考訳(メタデータ)   (Thu, 3 Mar 2022 11:08:16 GMT)
    • あまり見かけないオープンソースのポストエディットツール。論文やツール紹介は英語/ヒンディー語が対象だがツールは言語とは独立とのこと。
    • リポジトリはGitHub – ayushbits/udaan-post-editing

OCRデータは機械翻訳モデルの性能を向上させるか

  • OCR Improves Machine Translation for Low-Resource Languages [10.0]
    我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるOCR4MTを導入し,公開する。 我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。 次に,OCRエラーが機械翻訳性能に与える影響について検討する。
    論文  参考訳(メタデータ)   (Sun, 27 Feb 2022 02:36:45 GMT)
    •  OCRによって得られたモノリンガルデータは(リソースが少ない言語の)械翻訳モデルの性能向上に有効という論文。OCRエラーのタイプ別にも分析がされており、「replacement OCR error」が機械翻訳モデルに最もダメージを与えるとのこと。
    • 現時点ではデータ等はアップされていない。

MSCTD(Multimodal Sentiment Chat Translation Dataset): マルチモーダルな機械翻訳データセット

  • MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.8]
    マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。 MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。 本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
    論文  参考訳(メタデータ)   (Mon, 28 Feb 2022 09:40:46 GMT)
    • マルチモーダル(画像+テキスト)な機械翻訳データセットと対話勘定分析データセット。17.8K対話、173K発話・画像と大規模。ベースラインモデルも提供されており、画像を併用した方が性能が向上している。
    • リポジトリはGitHub – XL2248/MSCTD、現時点ではデータ等はアップされていない。。。