コンテンツへスキップ
- Democratizing Machine Translation with OPUS-MT [56.2]
本稿では,オープン機械翻訳モデルとツールの開発に焦点をあて,OPUSエコシステムについて述べる。 我々は現在進行中の言語カバレッジと翻訳品質向上のミッションについて論じるとともに,モジュール型翻訳モデルの開発に向けた取り組みについても述べる。
論文 参考訳(メタデータ) (Sun, 4 Dec 2022 22:16:27 GMT)
- OPUSエコシステムとオープンな機械翻訳モデルに関する報告。
- OPUSを直接的に使っているわけではないがFuguMT開発でも貴重な情報源だった。オープンな機械翻訳モデルは重要で素晴らしい取り組みであると思う。(FuguMT 英語→日本語、日本語→英語、多言語→日本語もCC BY SAとオープンなモデルの一つと宣伝、冬休みにはPLM利用版を公開したいなーと思っている)
- Prompting PaLM for Translation: Assessing Strategies and Performance [16.7]
経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。 我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
論文 参考訳(メタデータ) (Wed, 16 Nov 2022 18:42:37 GMT)
- 機械翻訳へのPaLM適用の取り組み
- 様々な手法を比較しているが、現状では教師有りな仕組みには及ばないとのこと。(及ばないとはいえ善戦とはいえるような気はしないでもない)
- Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation [50.5]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。 CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (Thu, 14 Apr 2022 08:16:28 GMT)- データ拡張によって優れた性能を発揮する手法の提案。BackTranslationを大きく上回っている(がモノリンガルデータは導入していない?)。データ拡張系手法の中でSoTAを主張。
- Automatic Song Translation for Tonal Languages [23.1]
歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。 自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 25 Mar 2022 02:25:33 GMT)
- Neural Machine Translation with Phrase-Level Universal Visual Representations [11.1]
既存の文画像データセットからソース入力の視覚情報を取得するために,MMTのフレーズレベル検索に基づく手法を提案する。 提案手法はフレーズレベルで検索を行い,ソースフレーズと接地領域のペアから視覚情報を学習する。 実験の結果,提案手法は複数のMTデータセット上で強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (Sat, 19 Mar 2022 11:21:13 GMT)
- UDAAN – Machine Learning based Post-Editing tool for Document Translation [16.1]
UDAANはオープンソースのポスト編集ツールで、さまざまな言語で公開可能な標準文書を作成するために、手作業による編集作業を減らすことができる。 UDAANにはエンドツーエンドの機械翻訳と後編集パイプラインがあり、ユーザーは文書をアップロードして生のMT出力を得ることができる。 本ツールでは,文書をスクラッチから翻訳する基本手法と比較して,翻訳時間を約3倍に高速化する。
論文 参考訳(メタデータ) (Thu, 3 Mar 2022 11:08:16 GMT)
- As Little as Possible, as Much as Necessary: Detecting Over- and Undertranslations with Contrastive Conditioning [42.5]
本稿では,ニューラルマシン翻訳における過剰な単語の検出手法を提案する。 我々は,翻訳モデルに基づく全列の確率と,対応するソースやターゲットシーケンスを考慮に入れた部分の確率を比較する。 これにより、参照翻訳がなくても、翻訳中の過剰な単語とソース内の未翻訳の単語をピンポイントで特定することができる。
論文 参考訳(メタデータ) (Thu, 3 Mar 2022 18:59:02 GMT)- 翻訳エラーを検出するための手法提案。一部を削除しながら逆翻訳を行うアプローチのよう。
- USEやLaBSEなどマルチリンガルモデルな分散表現を用いるような事もできそうに思った。(対訳ペアを取るには非常に有効だし)
- DeepNet: Scaling Transformers to 1,000 Layers [106.3]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。 詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。 トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (Tue, 1 Mar 2022 15:36:38 GMT)
- OCR Improves Machine Translation for Low-Resource Languages [10.0]
我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるOCR4MTを導入し,公開する。 我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。 次に,OCRエラーが機械翻訳性能に与える影響について検討する。
論文 参考訳(メタデータ) (Sun, 27 Feb 2022 02:36:45 GMT)- OCRによって得られたモノリンガルデータは(リソースが少ない言語の)械翻訳モデルの性能向上に有効という論文。OCRエラーのタイプ別にも分析がされており、「replacement OCR error」が機械翻訳モデルに最もダメージを与えるとのこと。
- 現時点ではデータ等はアップされていない。
- Improving Neural Machine Translation by Denoising Training [96.0]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。 モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。 実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 20 Jan 2022 03:55:52 GMT)