コンテンツへスキップ
- BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.2]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。 既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。 データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (Thu, 25 May 2023 10:50:40 GMT)
- BLOOMに新たな言語を入れる場合に有効な方法に関する報告。日本語を入れたいのでとても有用な情報。
- 「Surprisingly, we find that adapter-based finetuning is more effective than continued pretraining for large models.」という面白い結果が報告されている。「we need around 100 million tokens of the new language for effective language adaptation.」というのも面白い。wikipediaレベルで十分というのは本当なんだろうか。
- リポジトリはGitHub – bigscience-workshop/multilingual-modeling: Adapting BLOOM model to support a new unseen language
- Active Learning for Multilingual Semantic Parser [56.1]
多言語意味解析(AL-MSP)のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。 実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 13:30:06 GMT)
- マルチリンガルなSemantic Parserを対象としたアクティブラーニング、翻訳コストを減らすことがモチベーションのようだがNLPに対するアクティブラーニングでうまくいく事例として興味深い
- 当然ながら「Clearly, human translation delivers a greater output quality compared to machine translation.」なのでアクティブラーニングがうまく動作すると人間で…という方向が期待される
- XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages [11.6]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。 本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (Tue, 18 Apr 2023 09:38:59 GMT)
- Crosslingualな要約タスク、mBARTの成績が良い(LLM系は検証対象とされていない?)
- リポジトリはGitHub – DhavalTaunk08/XWikiGen: Codebase for the paper XWikiGen
- MEGA: Multilingual Evaluation of Generative AI [6.3]
生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。 ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。 これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
論文 参考訳(メタデータ) (Wed, 22 Mar 2023 13:03:10 GMT)
- データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
- davinci-003の結果は「健闘しているがfine tuningされたSoTAレベルには及ばず」「翻訳を介するtranslate-test が有効」という感じだが、GPT-4でどう変わっているかが気になるところ。
- Scaling Laws for Multilingual Neural Machine Translation [45.6]
モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。 学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。 我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
論文 参考訳(メタデータ) (Sun, 19 Feb 2023 18:43:24 GMT)
- マルチリンガルな機械翻訳におけるScaling Lawの検証結果。興味深い結果が多いが近しい言語のマルチリンガル翻訳は効果が大きいという説に対して「(En→{De, Fr})への翻訳を訓練したモデルと、非関連言語(En→{De, Zh})で訓練したモデルのスケーリング挙動に有意な差はみられない。」という結果は面白い。
- staka/takomt · Hugging Faceとか個人でやるには結構大変で当面はJA⇔ENに注力しようと思っているがとても面白い論文。
- ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages [37.6]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。 近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文 参考訳(メタデータ) (Tue, 13 Dec 2022 17:21:44 GMT)
- マルチリンガルなcode-to-text, text-to-code, code-to-code, text-to-text
- translate-trainとzero-shotの比較も興味深い。
- Long-Document Cross-Lingual Summarization [15.8]
言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。 長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。 ペルセウスの文書の平均の長さは2,000以上のトークンである。
論文 参考訳(メタデータ) (Thu, 1 Dec 2022 15:24:16 GMT)
- 長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
- mBART+LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…