2022年12月21日 – arXiv最新論文の紹介

Text Embeddings by Weakly-Supervised Contrastive Pre-training

Text Embeddings by Weakly-Supervised Contrastive Pre-training [89.5]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。 E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文参考訳（メタデータ） (Wed, 7 Dec 2022 09:25:54 GMT)
microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities (github.com)

ERNIE-Code

ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages [37.6]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文参考訳（メタデータ） (Tue, 13 Dec 2022 17:21:44 GMT)
マルチリンガルなcode-to-text, text-to-code, code-to-code, text-to-text
translate-trainとzero-shotの比較も興味深い。