Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.2] 多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。 異なる言語群に対する学習がいかに異なるかを検討する。 私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。 論文参考訳(メタデータ) (Thu, 09 Jan 2025 10:26:14 GMT)
Large Vision-Language Modelにおける多言語化の検証、英語のパフォーマンスを低下させることなく対応可能な言語数などに焦点を当てている。「our analysis reveals that one can (i) include as many as 100 training languages simultaneously (ii) with as little as 25-50% of non-English data, to greatly improve multilingual performance while retaining strong English performance. We further find that (iii) including non-English OCR data in pre-training and instruction-tuning is paramount for improving multilingual text-in-image understanding.」は興味深い結果。LLaVAアーキテクチャ、2.8BのPhi3.5、Llama 3 8Bでの検証。
その後、「After benchmarking different 7-9B parameter LLMs, we find that Aya-Expanse and Qwen 2.5 give the overall best results.」の結果、Aya-ExpanseとQwen 2.5を用いてモデル構築を行っている。