Prompting Large Language Model for Machine Translation: A Case Study 

  • Prompting Large Language Model for Machine Translation: A Case Study [87.9]
    我々は機械翻訳戦略の推進に関する体系的研究を行っている。 本稿では,プロンプトテンプレートと実演例選択の要因について検討する。 本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
    論文  参考訳(メタデータ)   (Wed, 18 Jan 2023 11:30:05 GMT)
  • 機械翻訳のためのプロンプト戦略の検討
  • プロンプトテンプレートの作り方や最初の例の与え方が翻訳に大きく影響するようで、その点はそうだろうと思うが、一般的に有効な戦略を作るのはなかなか難しそうとの印象。

Understanding Translationese in Cross-Lingual Summarization

  • Understanding Translationese in Cross-Lingual Summarization [45.0]
    言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。 大規模なCRSサンプルを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。 本研究では,翻訳文がCLSモデルの評価と性能にどのような影響を及ぼすかを検討する。
    論文  参考訳(メタデータ)   (Wed, 14 Dec 2022 13:41:49 GMT)
  • 翻訳を介する要約生成における翻訳処理の影響をまとめた論文
  • 影響があるのは直感的にも間違いなく、少なくともテストでは機械翻訳の採用を避ける、学習時には機械翻訳を一部使う場合は品質差があることを前提とする・semi-supervisedの採用を検討するなど良い示唆がある。

Democratizing Machine Translation with OPUS-MT

  • Democratizing Machine Translation with OPUS-MT [56.2]
    本稿では,オープン機械翻訳モデルとツールの開発に焦点をあて,OPUSエコシステムについて述べる。 我々は現在進行中の言語カバレッジと翻訳品質向上のミッションについて論じるとともに,モジュール型翻訳モデルの開発に向けた取り組みについても述べる。
    論文  参考訳(メタデータ)   (Sun, 4 Dec 2022 22:16:27 GMT)
  • OPUSエコシステムとオープンな機械翻訳モデルに関する報告。
  • OPUSを直接的に使っているわけではないがFuguMT開発でも貴重な情報源だった。オープンな機械翻訳モデルは重要で素晴らしい取り組みであると思う。(FuguMT 英語→日本語日本語→英語多言語→日本語もCC BY SAとオープンなモデルの一つと宣伝、冬休みにはPLM利用版を公開したいなーと思っている)

Simple and Effective Unsupervised Speech Translation

  • Simple and Effective Unsupervised Speech Translation [68.3]
    ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。 事前学習された音声モデルに対する教師なし領域適応手法を提案する。 実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
    論文  参考訳(メタデータ)   (Tue, 18 Oct 2022 22:26:13 GMT)
  • unsupervised なspeech-to-text translation (S2TT)とspeech-to-speech translation (S2ST)構築方法の提案。既存の知見をゴリゴリ使うアプローチで界隈の状況を知る上でも非常に参考になる。

DEMSD(Deep Encoder with Multiple Shallow Decoders )を使った多言語機械翻訳

  • Multilingual Neural Machine Translation with Deep Encoder and Multiple Shallow Decoders [77.2]
    本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。 2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
    論文  参考訳(メタデータ)   (Sun, 5 Jun 2022 01:15:04 GMT)
    • 機械翻訳では深いエンコーダと浅いデコーダの組み合わせが有効である。この論文では多対1の機械翻訳での有効性の検証、多対多機械翻訳の場合の対応を報告している。多対多機械翻訳ではデコーダ部分を複数の浅い構造とすることで翻訳性能と速度で良好な結果が出せたとのこと。

UDAAN :機械学習支援のポストエディットツール

  • UDAAN – Machine Learning based Post-Editing tool for Document Translation [16.1]
    UDAANはオープンソースのポスト編集ツールで、さまざまな言語で公開可能な標準文書を作成するために、手作業による編集作業を減らすことができる。 UDAANにはエンドツーエンドの機械翻訳と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。 本ツールでは,文書をスクラッチから翻訳する基本手法と比較して,翻訳時間を約3倍に高速化する。
    論文  参考訳(メタデータ)   (Thu, 3 Mar 2022 11:08:16 GMT)
    • あまり見かけないオープンソースのポストエディットツール。論文やツール紹介は英語/ヒンディー語が対象だがツールは言語とは独立とのこと。
    • リポジトリはGitHub – ayushbits/udaan-post-editing

OCRデータは機械翻訳モデルの性能を向上させるか

  • OCR Improves Machine Translation for Low-Resource Languages [10.0]
    我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるOCR4MTを導入し,公開する。 我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。 次に,OCRエラーが機械翻訳性能に与える影響について検討する。
    論文  参考訳(メタデータ)   (Sun, 27 Feb 2022 02:36:45 GMT)
    •  OCRによって得られたモノリンガルデータは(リソースが少ない言語の)械翻訳モデルの性能向上に有効という論文。OCRエラーのタイプ別にも分析がされており、「replacement OCR error」が機械翻訳モデルに最もダメージを与えるとのこと。
    • 現時点ではデータ等はアップされていない。

MSCTD(Multimodal Sentiment Chat Translation Dataset): マルチモーダルな機械翻訳データセット

  • MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.8]
    マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。 MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。 本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
    論文  参考訳(メタデータ)   (Mon, 28 Feb 2022 09:40:46 GMT)
    • マルチモーダル(画像+テキスト)な機械翻訳データセットと対話勘定分析データセット。17.8K対話、173K発話・画像と大規模。ベースラインモデルも提供されており、画像を併用した方が性能が向上している。
    • リポジトリはGitHub – XL2248/MSCTD、現時点ではデータ等はアップされていない。。。

JParaCrawl v3.0: 日英パラレルコーパス

  • JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [30.5]
    本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。 JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。 我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
    論文  参考訳(メタデータ)   (Fri, 25 Feb 2022 10:52:00 GMT)
    • JParaCrawlのバージョン3、このデータで作成されたモデルの性能が大幅に上がっている。パラレルコーパスの公開は非常にありがたい(商用利用はできないなどライセンスには注意が必要)
      • 論文に書かれた性能だとFuguMTより上そう。。。強化が必要だな。。。
    • プロジェクトサイトはJParaCrawl (ntt.co.jp)

Textless Speech-to-Speech Translation

  • Textless Speech-to-Speech Translation on Real Data [49.1]
    本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。 マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
    論文  参考訳(メタデータ)   (Wed, 15 Dec 2021 18:56:35 GMT)
    • FacebookAIがMetaAIになっていた。はおいておいて、S2ST(Speech-to-Speech Translation )を使った論文。話者間で共通の語彙となるような音声正規化手法(self-supervised unit-based speech normalization process)を提案、テキストレスで機械翻訳を実現。思ったよりBLEUも高くて驚いた。
    • コード等も公開予定とのこと。