PaLI-X

  • PaLI-X: On Scaling up a Multilingual Vision and Language Model [167.0]
    マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。 我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。 複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
    論文  参考訳(メタデータ)   (Mon, 29 May 2023 18:58:38 GMT)
  • PaLI: Pathways Language and Image – arXiv最新論文の紹介 (devneko.jp)の新バージョン(?)、Vision-Languageなタスクで優れた性能を達成
  • モデルアーキテクチャはViT 22B + UL2 32B?

BigTrans

  • BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages [58.9]
    我々は,LLaMAを20言語のみに適応させ,100言語以上の多言語翻訳機能で拡張するBigTransを提案する。 BigTransは,LLaMA-13B上に構築されており,3つのステップで最適化されている。まず,大規模な中国語モノリンガルデータを用いてLLaMAのトレーニングを継続する。次に,102の自然言語をカバーする大規模並列データセットを用いてモデルをトレーニングする。第3に,基礎モデルを多言語翻訳命令で指導し,BigTransモデルに導出する。
    論文  参考訳(メタデータ)   (Mon, 29 May 2023 14:07:52 GMT)
  • LLaMAを多言語対応させる手法の提案、最初に中国語に対応させ、その後多言語に展開する方針で日本語でもやってみたい内容
  • リポジトリはGitHub – ZNLP/BigTrans: BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting 

  • BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.2]
    BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。 既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。 データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
    論文  参考訳(メタデータ)   (Thu, 25 May 2023 10:50:40 GMT)
  • BLOOMに新たな言語を入れる場合に有効な方法に関する報告。日本語を入れたいのでとても有用な情報。
  • 「Surprisingly, we find that adapter-based finetuning is more effective than continued pretraining for large models.」という面白い結果が報告されている。「we need around 100 million tokens of the new language for effective language adaptation.」というのも面白い。wikipediaレベルで十分というのは本当なんだろうか。
  • リポジトリはGitHub – bigscience-workshop/multilingual-modeling: Adapting BLOOM model to support a new unseen language