機械翻訳 – ページ 6 – arXiv最新論文の紹介

難易度を考慮した機械翻訳の評価

Difficulty-Aware Machine Translation Evaluation [20.0]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文参考訳（メタデータ） (Fri, 30 Jul 2021 02:45:36 GMT)
- BERTScore をベースに翻訳の難しさ（複数翻訳モデルの一致の悪さ）を考慮したDifficulty-Aware BERTScoreを定義、評価指標として有効に動作することを検証した論文。よく用いられるBLEUは翻訳の品質評価において良好な結果を示さないことが分かっており、自動評価指標の開発は重要である。品質評価において難易度の考慮は自然な発想であり、本論文の難易度の定義も違和感がない。良さそうな指標だと思う。
- ソースコード等はhttps://github.com/NLP2CT/Difficulty-Aware-MT-Evaluationで公開されている。

To Ship or Not to ship: 機械翻訳の評価指標

To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation [6.0]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。 BLEUのみの使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文参考訳（メタデータ） (Thu, 22 Jul 2021 17:22:22 GMT)
- 機械翻訳モデルが複数あったときにどのモデルをリリースすべきかは悩ましい問題である（FuguMTでも最終的には目検を行った後にリリースモデルを決めている）。この論文では幅広い検証の結果、BLEUは使用すべきではなくCOMET（使用不可の言語の場合はChrF）の使用を推奨している。
- リポジトリはhttps://github.com/MicrosoftTranslator/ToShipOrNotToShipであり、今後詳細を公開予定とのこと。
- COMETのリポジトリはhttps://github.com/Unbabel/COMETにある。

DeltaLM: 多言語エンコーダ-デコーダモデル

DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders [92.9]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己教師ありで事前学習する。実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文参考訳（メタデータ） (Fri, 25 Jun 2021 16:12:10 GMT)
- こちらは事前学習された言語生成（機械翻訳）用のエンコーダ・デコーダアーキテクチャのモデル。パラメータが少ないにもかかわらずmBARTやmT5、M2M-100を上回る性能。
- ∆LMは32 V100 GPUで1週間の計算コストと mBART（256 GPUで2.5週間）に比べ低コスト（？）での学習が可能とのこと。

LM4MT(Language Models for Machine translation): 翻訳のための言語モデル

Language Models are Good Translators [63.5]
単一言語モデル(LM4MT)は,強力なエンコーダデコーダNMTモデルと同等の性能が得られることを示す。ピボットベースおよびゼロショット変換タスクの実験により、LM4MTはエンコーダ・デコーダのNMTモデルよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (Fri, 25 Jun 2021 13:30:29 GMT)
- 現状のニューラル機械翻訳ではエンコーダ・デコーダ型のアーキテクチャが良く用いられるが言語モデルのアーキテクチャでも十分な性能が得られたとの報告。多言語間で統一的な内部表現であることからかmultilingual NMT のゼロショット翻訳ではtransformerより優れているとのこと。

単言語の翻訳メモリ利用

Neural Machine Translation with Monolingual Translation Memory [59.0]
本稿では,モノリンガルメモリを用いて学習可能なメモリ検索を行う新しいフレームワークを提案する。実験の結果,提案手法は大幅な改善が得られた。
論文参考訳（メタデータ）参考訳（全文） (Mon, 24 May 2021 13:35:19 GMT)
- それは翻訳メモリと呼ぶのかとは思いつつ、スコアリング、ランキングに単言語翻訳メモリを用いるのは効果的そうだなと思う。

コンテキスト対応の機械翻訳

Do Context-Aware Translation Models Pay the Right Attention? [61.3]
コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。 SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。 SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
論文　　参考訳（メタデータ） (Fri, 14 May 2021 17:32:24 GMT)
- 機械翻訳における文脈の取り込みの研究とSCAT(Supporting Context for Ambiguous Translations)データセットの紹介
- 現時点ではデータセットは公開されていない？

効率的なGCN、ビームサーチを超えるサーチ、感情を考慮した翻訳

Towards Efficient Graph Convolutional Networks for Point Cloud Handling [181.6]
ポイントクラウド上で学習するためのグラフ畳み込みネットワーク(GCN)の計算効率の向上を目指す。 1) 3次元表現の局所的幾何学的構造情報はKNN探索による近傍特徴の収集に依存するGCN全体にわたって円滑に伝播する。2)グラフ特徴集合の順序をシャッフルし、MLPが等価あるいは類似の複合演算に導く。これらの結果に基づき、GCNの計算手順を最適化する。最適化されたネットワークは計算の複雑さを減らし、メモリ消費を減らし、予測速度を加速し、ポイントクラウド上での学習の精度を同等に保った。
論文参考訳（メタデータ）参考訳（全文） (Mon, 12 Apr 2021 17:59:16 GMT)
- GCNの高速化の話。結果はpoint cloudの性質による（？）

Machine Translation Decoding beyond Beam Search [43.3]
ビームサーチは自動回帰機械翻訳モデルの復号化手法である。ビームサーチは自動回帰機械翻訳モデルの復号化手法である。 BLEUの観点で一貫した改善をもたらすが、それは高いモデル確率で出力を見つけることだけに関係している。我々の目標は、ビームサーチがより強力な計量駆動サーチ技術に置き換えられるかどうかを確かめることである。モンテカルロ木探索(mcts)に基づく手法を導入し,その競合性を示す。
論文参考訳（メタデータ） (Mon, 12 Apr 2021 10:28:17 GMT)
- 翻訳タスク、文章生成タスクなどでよく用いられるビームサーチを改善できるかを検討した論文。DeepMindらしく（？）広範な比較があり参考になる。BLEUのみをメトリクスにしていないのも今風。

Sentiment-based Candidate Selection for NMT [2.6]
本稿では,機械翻訳(mt)候補選択プロセスに自動感情スコアを組み込むデコーダ側手法を提案する。我々は、英語とスペイン語の感情分類器を訓練し、ビームサーチによるベースラインMTモデルによって生成されたn-best候補を用いて、原文の感情スコアと翻訳の絶対差を最小化する候補を選択する。人間の評価結果から口語的で感情的な原文をより正確に翻訳することができた。
論文参考訳（メタデータ） (Sat, 10 Apr 2021 19:01:52 GMT)
- 感情分類器を併用した機械翻訳の論文。このようなアプローチは面白い。

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30