Multilingual – ページ 9 – arXiv最新論文の紹介

Multilingual Machine Translationの実践的アプローチ

Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning [48.2]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文参考訳（メタデータ） (Thu, 13 Jan 2022 18:09:08 GMT)
- 多言語機械翻訳モデルの実現に向けた様々な実験結果が参考になる。モデルが対応する言語数の増減、linguistic similarityを考慮した増減、パラ / モノリンガルデータ数が与える影響、ドメイン相違の影響、pretraining / finetuning / co-training / iterative back translationなど学習方法の影響など様々な観点があり興味深い。

Homepage2Vec

Language-Agnostic Website Embedding and Classification [12.9]
92言語で100万以上のWebサイトを持つデータセットをリリースし、Curlieから相対ラベルを収集しました。ホームページに基づいてWebサイトを分類・埋め込みするマシン学習モデルであるHomepage2Vecを紹介する。 Homepage2Vecは、マクロ平均F1スコア0.90のWebサイトを正しく分類し、低および高ソース言語で安定したパフォーマンスを示す。
論文参考訳（メタデータ） (Mon, 10 Jan 2022 22:31:48 GMT)
- ウェブサイトを分散表現にするHomepage2Vec。多言語（92言語）に対応、日本語も対応しているよう。WEBサイトを扱う場合の前処理に使えるかもしれない。
- リポジトリはGitHub – epfl-dlab/homepage2vec: Language-Agnostic Website Embedding and Classification

XGLM(multilingual Generative Language Models): 多言語モデルでのFew-shot

Few-shot Learning with Multilingual Language Models [66.5]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文参考訳（メタデータ） (Mon, 20 Dec 2021 16:52:35 GMT)
- 多言語対応モデルを新たに構築、優れた性能を発揮。非常に広範なデータで検証を行っており興味深い結果となっている。
- 日本語のデータも相応に入っており対応しているものと思われる。が、評価に使えるデータセットがXWinograd、PAWS-Xなど少なく状況が判別しにくい（モデルは公開されているようなので色々試してみるしかなさそう）
- リポジトリはfairseq/examples/xglm at main · pytorch/fairseq · GitHub

XLS-R(Cross-lingual Speech Representation): 多言語音声の大規模事前学習

XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale [48.0]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。 128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文参考訳（メタデータ）参考訳（全文） (Wed, 17 Nov 2021 18:49:42 GMT)
- 巨大モデルで音声翻訳、音声認識、言語認識、話者認識など様々なタスクで優れた性能。英語方向のCoVoST-2でSoTAなど印象的な結果。
  - NLPの巨大言語モデルを見るに違和感はないが、巨大化はどこまで行くのだろう。。。
- リポジトリはhttps://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr

多言語教師無しニューラル機械翻訳/mBART-50の効果的な利用

Multilingual Unsupervised Neural Machine Translation with Denoising Adapters [77.8]
単言語データのみを持つ言語を翻訳・翻訳する多言語無教師機械翻訳の問題点を考察する。この問題に対して、モノリンガルデータを活用するための標準的な手順は、計算コストが高くチューニングが難しいバックトランスレーションである。本稿では,事前学習したmBART-50上に,デノナイジング対象のアダプタ層であるデノナイジングアダプタを使用することを提案する。
論文参考訳（メタデータ） (Wed, 20 Oct 2021 10:18:29 GMT)
- mBART-50にアダプタ層を付け加えることによって破壊的な忘却を防止しながら性能の高い機械翻訳モデルを構築可能という報告。教師無し＆単言語データを主たる対象にしている。新しい言語でmBARTを拡張できるとか非常に興味深い結果。

マルチリンガルなCommonsense Reasoning

Leveraging Knowledge in Multilingual Commonsense Reasoning [25.2]
本稿では,翻訳・検索・翻訳(TRT)戦略を用いて,英語の知識ソースを活用することを提案する。多言語コモンセンスの質問や選択に対して,知識ソースからの翻訳や検索を通じて関連する知識を収集する。検索した知識は対象言語に翻訳され、事前訓練された多言語言語モデルに統合される。
論文参考訳（メタデータ） (Sat, 16 Oct 2021 03:51:53 GMT)
- 処理中に機械翻訳を用いるタイプのマルチリンガルな自然言語処理のアプローチ。XCSRで優れた性能とのこと。言語資源が英語に偏っているのは事実で機械翻訳モデルを用いるアプローチが強力そうなのは直感的には明らか。マルチリンガルモデルを用いるより機械翻訳を挟む方が性能が優れている事例は複数あるが、事前学習モデルの性能、機械翻訳モデルの性能など考慮すべき前提条件が多く、どのあたりがその境目になるのか興味がある。

Machine Translationにおける多言語学習の意味

Breaking Down Multilingual Machine Translation [74.2]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにも有益であることを示す。我々の LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文参考訳（メタデータ） (Fri, 15 Oct 2021 14:57:12 GMT)
- マルチリンガルな学習の効果をエンコーダ、デコーダに分けて分析した論文。多言語トレーニングは「ローリソースな言語ではエンコーダとデコーダの両方にとって有益」「そうでない場合はエンコーダにとってのみ有益」とのこと。また、複数言語間のパラメータ共有状況を分析し言語クラスタの修正など改善方法を提案、効果を確認している。

Cross-Lingual GenQA（Generative Question Answering ）: クロスリンガルなQA

Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering Approach for Open-Domain Question Answering [77.0]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文参考訳（メタデータ） (Thu, 14 Oct 2021 04:36:29 GMT)
- 複数の言語で一般的な質問に回答可能なモデルの提案。単言語のモデル：MONOLINGUAL GENQA、多言語のモデル：MULTILINGUAL GENQA、複数言語の回答を合成するCROSSLINGUAL GENQAを比較、単言語モデルよりも優れている場合があることを示している。
  - 言語間差異が大きく興味深い実験・結果だが（論文中にも指摘がある通り）途中に機械翻訳を挟んだ影響が気になる。
- リポジトリはhttps://github.com/alexa/wqa-cascade-transformers/tree/master/arxiv2021mgqa

FooDI-ML: マルチリンガルな食品画像＋説明のデータセット

FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。データセットにはスペイン語や英語など、広く話されている言語も含まれている。
論文参考訳（メタデータ） (Tue, 5 Oct 2021 13:33:08 GMT)
- 2.8M以上の食料品や飲料など画像と33言語の9.5M以上の説明文、店舗名、商品名、収集セクションを含むデータセット。ライセンスはCC BY-NC-SA。今後2倍以上のサイズのデータセット構築を予定しているとのこと。
- リポジトリはhttps://github.com/Glovo/foodi-ml-dataset

StoryDB: 多言語なストーリーのデータセットとタスク

StoryDB: Broad Multi-language Narrative Dataset [0.3]
StoryDBは42の異なる言語にストーリーを含むテキストのコーパスである。すべてのストーリーは言語にまたがってインデックス化され、ジャンルやトピックなどのタグがラベル付けされる。
論文参考訳（メタデータ） (Wed, 29 Sep 2021 12:59:38 GMT)
- 42言語の物語のストーリー（概略）のデータセット。論文中にGoogle Driveのリンクがあるような配布形式なっている。その上で「Task A: プロットの（マルチラベルな）タグ分類」「Task B: クロスリンガルな設定のTask A（ある言語で学習した結果のゼロショット）」「Task C: 全言語で重複するプロットで学習」という3つのタスクを設定。
- https://wandb.ai/altsoph/projects　が検証結果のよう

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30