Back-Translation – arXiv最新論文の紹介

Self-Alignment with Instruction Backtranslation

Self-Alignment with Instruction Backtranslation [133.1]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文参考訳（メタデータ） (Fri, 11 Aug 2023 17:47:54 GMT)
unlabeledなデータを活用する手法の提案。考え方としては機械翻訳におけるBack translationに近く「Self-augment: unlabeledなデータから(instruction, output)ペアを作成」「Self-curate: fine tune用のデータとして高品質なデータを選択」からなる。
結果得られたモデルは Alpaca leaderboardで他モデル（ChatGPT, GPT-4など）に依存しないモデルをoutperformしたとのこと。

On the Complementarity between Pre-Training and Back-Translation for Neural Machine Translation [63.9]
事前学習(PT)と後方翻訳(BT)は単言語データを利用するためのシンプルで強力な方法である。本稿では,PTとBTの相補性について検討する。我々は、WMT16英語-ルーマニア語と英語-ロシア語ベンチマークで最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (Tue, 5 Oct 2021 04:01:36 GMT)
- Pre-Trainingはエンコーダにとってより有益であり、Back-Translationはデコーダを主に改善するとの報告。両社は相互補完可能でTagged BTはより有益であるとのこと。

HintedBT: Augmenting Back-Translation with Quality and Transliteration Hints [7.5]
標的単言語コーパスのバックトランスレーションは、ニューラルマシン翻訳(NMT)に広く用いられているデータ拡張戦略である私たちは、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介します。これらのヒントを別々に使用することで翻訳品質が大幅に向上することを示す。
論文参考訳（メタデータ）参考訳（全文） (Thu, 9 Sep 2021 17:43:20 GMT)
- 高品質BTデータと低品質BTデータについてタグを付与することによりBack Translationの有効性を上げられるとの報告。LaBSEによるHintが有効とのことでマルチリンガルな分散表現の活用は有効のよう。（FuguMTでも使わせてもらっている）