EMMA-500, EuroLLM – arXiv最新論文の紹介

マルチリンガルさを特徴とするLLMの開発も行われている。

EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.5]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文参考訳（メタデータ） (Thu, 26 Sep 2024 14:40:45 GMT)
MaLA Corpus （It contains 939 languages, 546 of which have more than 100k tokens and are used for training our EMMA-500 model, and 74 billion (B) whitespace delimited tokens in total.）とそれを活用したLlama 2-basedなLLM EMMA-500、240言語を対象としたベンチマークPolyWrite の提案。
リポジトリはMaLA-LM (MaLA-LM) (huggingface.co)

EuroLLM: Multilingual Language Models for Europe [76.9]
オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
論文参考訳（メタデータ） (Tue, 24 Sep 2024 16:51:36 GMT)
「EuroLLM project with the goal of creating a suite of LLMs capable of understanding and generating text in all European Union languages (Bulgarian, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hungarian, Irish, Italian, Latvian, Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, Slovenian, Spanish, and Swedish) as well as some additional relevant languages (Arabic, Catalan, Chinese, Galician, Hindi, Japanese, Korean, Norwegian, Russian, Turkish, and Ukrainian).」というLLM構築プロジェクトの紹介。規模は小さいものの機械翻訳での性能は悪くなさそう？
リポジトリはEuroLLM – a utter-project Collection (huggingface.co)

コメントを残す

コメントを残す コメントをキャンセル