XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models 

  • XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models [87.7]
    我々は,言語間のトークン共有を非強調にすることで,非常に大きな多言語語彙に拡張する新たなアプローチを提案する。 我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。 XLM-Vは、自然言語推論(XNLI)から質問応答(MLQA)、名前付きエンティティ認識(WikiAnn)まで幅広いタスクでXLM-Rより優れています。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 09:15:17 GMT)
  • 多言語モデルで問題(かつ議論)となる語彙に関する論文。100万語彙を持つモデルを学習し優れた性能を出しているのはすごい。
  • 「Most notably, we provide evidence showing that expanding the vocabulary beyond 1M tokens can degrade performance on downstream tasks」というのも興味深い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です