Text Embeddings by Weakly-Supervised Contrastive Pre-training 

ERNIE-Code

  • ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages [37.6]
    同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。 近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
    論文  参考訳(メタデータ)   (Tue, 13 Dec 2022 17:21:44 GMT)
  • マルチリンガルなcode-to-text, text-to-code, code-to-code, text-to-text
  • translate-trainとzero-shotの比較も興味深い。