XGLM(multilingual Generative Language Models): 多言語モデルでのFew-shot

  • Few-shot Learning with Multilingual Language Models [66.5]
    多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。 私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。 本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
    論文  参考訳(メタデータ)   (Mon, 20 Dec 2021 16:52:35 GMT)
    • 多言語対応モデルを新たに構築、優れた性能を発揮。非常に広範なデータで検証を行っており興味深い結果となっている。
    • 日本語のデータも相応に入っており対応しているものと思われる。が、評価に使えるデータセットがXWinograd、PAWS-Xなど少なく状況が判別しにくい(モデルは公開されているようなので色々試してみるしかなさそう)
    • リポジトリはfairseq/examples/xglm at main · pytorch/fairseq · GitHub

XLS-R(Cross-lingual Speech Representation): 多言語音声の大規模事前学習

  • XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale [48.0]
    XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。 128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 17 Nov 2021 18:49:42 GMT)
    • 巨大モデルで音声翻訳、音声認識、言語認識、話者認識など様々なタスクで優れた性能。英語方向のCoVoST-2でSoTAなど印象的な結果。
      • NLPの巨大言語モデルを見るに違和感はないが、巨大化はどこまで行くのだろう。。。
    • リポジトリはhttps://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr

多言語教師無しニューラル機械翻訳/mBART-50の効果的な利用

  • Multilingual Unsupervised Neural Machine Translation with Denoising Adapters [77.8]
    単言語データのみを持つ言語を翻訳・翻訳する多言語無教師機械翻訳の問題点を考察する。 この問題に対して、モノリンガルデータを活用するための標準的な手順は、計算コストが高くチューニングが難しいバックトランスレーションである。 本稿では,事前学習したmBART-50上に,デノナイジング対象のアダプタ層であるデノナイジングアダプタを使用することを提案する。
    論文  参考訳(メタデータ)   (Wed, 20 Oct 2021 10:18:29 GMT)
    • mBART-50にアダプタ層を付け加えることによって破壊的な忘却を防止しながら性能の高い機械翻訳モデルを構築可能という報告。教師無し&単言語データを主たる対象にしている。新しい言語でmBARTを拡張できるとか非常に興味深い結果。

マルチリンガルなCommonsense Reasoning

  • Leveraging Knowledge in Multilingual Commonsense Reasoning [25.2]
    本稿では,翻訳・検索・翻訳(TRT)戦略を用いて,英語の知識ソースを活用することを提案する。 多言語コモンセンスの質問や選択に対して,知識ソースからの翻訳や検索を通じて関連する知識を収集する。 検索した知識は対象言語に翻訳され、事前訓練された多言語言語モデルに統合される。
    論文  参考訳(メタデータ)   (Sat, 16 Oct 2021 03:51:53 GMT)
    • 処理中に機械翻訳を用いるタイプのマルチリンガルな自然言語処理のアプローチ。XCSRで優れた性能とのこと。言語資源が英語に偏っているのは事実で機械翻訳モデルを用いるアプローチが強力そうなのは直感的には明らか。マルチリンガルモデルを用いるより機械翻訳を挟む方が性能が優れている事例は複数あるが、事前学習モデルの性能、機械翻訳モデルの性能など考慮すべき前提条件が多く、どのあたりがその境目になるのか興味がある。

Machine Translationにおける多言語学習の意味

  • Breaking Down Multilingual Machine Translation [74.2]
    マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにも有益であることを示す。我々の LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 14:57:12 GMT)
    • マルチリンガルな学習の効果をエンコーダ、デコーダに分けて分析した論文。多言語トレーニングは「ローリソースな言語ではエンコーダとデコーダの両方にとって有益」「そうでない場合はエンコーダにとってのみ有益」とのこと。また、複数言語間のパラメータ共有状況を分析し言語クラスタの修正など改善方法を提案、効果を確認している。

Cross-Lingual GenQA(Generative Question Answering ): クロスリンガルなQA

  • Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering Approach for Open-Domain Question Answering [77.0]
    オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。 我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
    論文  参考訳(メタデータ)   (Thu, 14 Oct 2021 04:36:29 GMT)
    • 複数の言語で一般的な質問に回答可能なモデルの提案。単言語のモデル:MONOLINGUAL GENQA、多言語のモデル:MULTILINGUAL GENQA、複数言語の回答を合成するCROSSLINGUAL GENQAを比較、単言語モデルよりも優れている場合があることを示している。
      • 言語間差異が大きく興味深い実験・結果だが(論文中にも指摘がある通り)途中に機械翻訳を挟んだ影響が気になる。

FooDI-ML: マルチリンガルな食品画像+説明のデータセット

  • FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
    このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。 データセットにはスペイン語や英語など、広く話されている言語も含まれている。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 13:33:08 GMT)
    • 2.8M以上の食料品や飲料など画像と33言語の9.5M以上の説明文、店舗名、商品名、収集セクションを含むデータセット。ライセンスはCC BY-NC-SA。今後2倍以上のサイズのデータセット構築を予定しているとのこと。
    • リポジトリはhttps://github.com/Glovo/foodi-ml-dataset

StoryDB: 多言語なストーリーのデータセットとタスク

  • StoryDB: Broad Multi-language Narrative Dataset [0.3]
    StoryDBは42の異なる言語にストーリーを含むテキストのコーパスである。 すべてのストーリーは言語にまたがってインデックス化され、ジャンルやトピックなどのタグがラベル付けされる。
    論文  参考訳(メタデータ)   (Wed, 29 Sep 2021 12:59:38 GMT)
    • 42言語の物語のストーリー(概略)のデータセット。論文中にGoogle Driveのリンクがあるような配布形式なっている。その上で「Task A: プロットの(マルチラベルな)タグ分類」「Task B: クロスリンガルな設定のTask A(ある言語で学習した結果のゼロショット)」「Task C: 全言語で重複するプロットで学習」という3つのタスクを設定。
    • https://wandb.ai/altsoph/projects が検証結果のよう

XLM-K: multilingual Knowledgeを取り入れた多言語事前学習モデル

  • XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual Knowledge [31.8]
    言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。 本稿では,事前学習に多言語知識を取り入れたクロス言語モデルXLM-Kを提案する。
    論文  参考訳(メタデータ)   (Sun, 26 Sep 2021 11:46:20 GMT)
    • 多言語プリトレーニングをMasked Entity Prediction TaskとObject Entailment Taskで強化、言語間の転移性能が向上したとの報告。mBERTやXLM-Rを上回る性能。

MDAPT(Multilingual Domain Adaptive PreTraining): 多言語ドメイン固有モデルの有効性

  • MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.6]
    一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。 本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 14 Sep 2021 11:50:26 GMT)
    • 金融やバイオなどあるドメイン固有の処理を行う多言語モデルを構築する場合、多言語ドメイン固有な事前学習(アダプト)を行うことが有効とした論文。様々なパターンで性能比較が行われており参考になる。(各言語のモデルを構築せずとも)固有ドメイン・多言語の統一モデルに意義があるとされているのが興味深い。
    • リポジトリはhttps://github.com/RasmusKaer/mDAPT_supplementshttps://github.com/mahartmann/mdapt