PaLI-X: On Scaling up a Multilingual Vision and Language Model [167.0] マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。 我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。 複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。 論文参考訳(メタデータ) (Mon, 29 May 2023 18:58:38 GMT)
BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages [58.9] 我々は,LLaMAを20言語のみに適応させ,100言語以上の多言語翻訳機能で拡張するBigTransを提案する。 BigTransは,LLaMA-13B上に構築されており,3つのステップで最適化されている。まず,大規模な中国語モノリンガルデータを用いてLLaMAのトレーニングを継続する。次に,102の自然言語をカバーする大規模並列データセットを用いてモデルをトレーニングする。第3に,基礎モデルを多言語翻訳命令で指導し,BigTransモデルに導出する。 論文参考訳(メタデータ) (Mon, 29 May 2023 14:07:52 GMT)
BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.2] BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。 既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。 データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。 論文参考訳(メタデータ) (Thu, 25 May 2023 10:50:40 GMT)
BLOOMに新たな言語を入れる場合に有効な方法に関する報告。日本語を入れたいのでとても有用な情報。
「Surprisingly, we find that adapter-based finetuning is more effective than continued pretraining for large models.」という面白い結果が報告されている。「we need around 100 million tokens of the new language for effective language adaptation.」というのも面白い。wikipediaレベルで十分というのは本当なんだろうか。
MEGA: Multilingual Evaluation of Generative AI [6.3] 生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。 ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。 これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。 論文参考訳(メタデータ) (Wed, 22 Mar 2023 13:03:10 GMT)
データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension [61.1] 知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。 xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。 読解パラダイムにおけるxKBQAの新しいアプローチを提案する。 論文参考訳(メタデータ) (Sun, 26 Feb 2023 05:52:52 GMT)