- Text Embeddings by Weakly-Supervised Contrastive Pre-training [89.5]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。 E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (Wed, 7 Dec 2022 09:25:54 GMT) - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities (github.com)
日: 2022年12月21日
ERNIE-Code
- ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages [37.6]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。 近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文 参考訳(メタデータ) (Tue, 13 Dec 2022 17:21:44 GMT) - マルチリンガルなcode-to-text, text-to-code, code-to-code, text-to-text
- translate-trainとzero-shotの比較も興味深い。