CroCoSum

  • CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
    近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。 我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 17:52:51 GMT)
  • クロスリンガルな要約データセット。英語→中国語。
  • 「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。(日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う)
  • 異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
  • リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404

コンタミとCross Lingual性

  • Language Contamination Explains the Cross-lingual Capabilities of English Pretrained Models [79.4]
    一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。 これにより、大規模なデータセットで数十億の外国語トークンが生成される。 そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 17 Apr 2022 23:56:54 GMT)
    • 英語で事前学習された事前学習モデルが他の言語でも有効なことがある理由をデータのコンタミによるものであると指摘した論文。
    • クローリング結果の言語を統一するクレンジングは困難で妥当な内容と思う。(とはいえ&完全否定されているわけではないが)言語間でも共通な構造みたいなものを捉えていて欲しかった気もする。

Cross-Lingual Summarizationのサーベイ

  • A Survey on Cross-Lingual Summarization [43.9]
    言語間の要約は、異なる言語における文書の1つの言語で要約を生成するタスクである。 グローバル化の背景から、この課題は計算言語学コミュニティから注目を集めている。 この分野におけるデータセット、アプローチ、課題に関する最初の体系的批判的レビューを提示する。
    論文  参考訳(メタデータ)   (Wed, 23 Mar 2022 16:24:21 GMT)
    • クロスリンガル要約のサーベイ。日本語にとっては極めて重要なタスクだと思う。
      • 英語のドキュメントに対して日本語の抄訳がある事例は多く、データセットを作りやすいのではないかと思ったりもする。。。

Cross-lingual Transferにおける英語以外の有効性

  • Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.4]
    ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。 人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。 ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
    論文  参考訳(メタデータ)   (Wed, 30 Jun 2021 16:05:57 GMT)
    • ゼロショットで多言語モデルを構築する場合は英語をベースにすることが多いがドイツ語やロシア語が有効なことがあるという興味深い報告。特にターゲットの言語が多様な場合に有効とのこと。機械翻訳を行ってなお有効とのことで意外な結果。事前学習モデルの性質なのか、言語特性によるものなのか非常に面白い。

XLM-E: ELECTRA型の事前学習モデル

  • XLM-E: Cross-lingual Language Model Pre-training via ELECTRA [46.8]
    我々は,多言語コーパスと並列コーパスの両方で,XLM-Eという名前のモデルを事前学習する。 我々のモデルは、様々な言語間理解タスクにおけるベースラインモデルよりもはるかに低コストで性能を向上する。
    論文  参考訳(メタデータ)   (Wed, 30 Jun 2021 15:45:07 GMT)
    • 計算コストの低い事前学習モデル。XQuADやPAWS-Xなどcross lingualなタスクで100倍の計算コストがかかるXLM_Rを超える優れた性能。
    • Microsoftの成果。そのうち、https://github.com/microsoft/unilm にコードが公開されたりするのだろうか。

Decomposed attentionを使ったマルチリンガル表現

  • Learning Multilingual Representation for Natural Language Understanding with Enhanced Cross-Lingual Supervision [42.7]
    本稿では,MA(Mixed Attention)の代替として,DA(Decomposed attention)というネットワークを提案する。 DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。 様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
    論文  参考訳(メタデータ)   (Wed, 9 Jun 2021 16:12:13 GMT)
    • mBERTのようなマルチリンガルモデルによってゼロショットで他言語に対応可能なモデルを構築できることが知られている。バイリンガルな言語間コーパス(翻訳文によるコーパス)の情報を活用してより良い事前学習モデルを作ったという報告。