Multilingual – ページ 6 – arXiv最新論文の紹介

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting

BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.2]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文参考訳（メタデータ） (Thu, 25 May 2023 10:50:40 GMT)
BLOOMに新たな言語を入れる場合に有効な方法に関する報告。日本語を入れたいのでとても有用な情報。
「Surprisingly, we find that adapter-based finetuning is more effective than continued pretraining for large models.」という面白い結果が報告されている。「we need around 100 million tokens of the new language for effective language adaptation.」というのも面白い。wikipediaレベルで十分というのは本当なんだろうか。
リポジトリはGitHub – bigscience-workshop/multilingual-modeling: Adapting BLOOM model to support a new unseen language

Active Learning for Multilingual Semantic Parser

Active Learning for Multilingual Semantic Parser [56.1]
多言語意味解析(AL-MSP)のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 13:30:06 GMT)
マルチリンガルなSemantic Parserを対象としたアクティブラーニング、翻訳コストを減らすことがモチベーションのようだがNLPに対するアクティブラーニングでうまくいく事例として興味深い
当然ながら「Clearly, human translation delivers a greater output quality compared to machine translation.」なのでアクティブラーニングがうまく動作すると人間で…という方向が期待される

XWikiGen

XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages [11.6]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文参考訳（メタデータ） (Tue, 18 Apr 2023 09:38:59 GMT)
Crosslingualな要約タスク、mBARTの成績が良い（LLM系は検証対象とされていない？）
リポジトリはGitHub – DhavalTaunk08/XWikiGen: Codebase for the paper XWikiGen

PRESTO

PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs [39.6]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文参考訳（メタデータ） (Fri, 17 Mar 2023 02:26:52 GMT)
多言語の会話データセット550K-examples、6言語と大規模。日本語が入っているのがうれしい。ライセンスはクリエイティブ・コモンズ — 表示 4.0 インターナショナル — CC BY 4.0 (creativecommons.org)
リポジトリはGitHub – google-research-datasets/presto: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs

MEGA: Multilingual Evaluation of Generative AI

MEGA: Multilingual Evaluation of Generative AI [6.3]
生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 13:03:10 GMT)
データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
davinci-003の結果は「健闘しているがfine tuningされたSoTAレベルには及ばず」「翻訳を介するtranslate-test が有効」という感じだが、GPT-4でどう変わっているかが気になるところ。

Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension

Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension [61.1]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。 xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文参考訳（メタデータ） (Sun, 26 Feb 2023 05:52:52 GMT)
xKBQAを解く際にナレッジベースからサブグラフを抽出、そこから自然言語のテキストを生成し、PLM-based xMRC モデルを用いて回答を得るというアプローチの提案（？）
構造化データを非構造化データにしてしまっている気がするが解釈はあっているだろうか・・・？（それでも大規模PLMの恩恵を受けた方が性能が高まるという事？）
リポジトリはGitHub – luciusssss/xkbqa-as-mrc: Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension, Findings of EACL 2023

機械翻訳におけるScaling Law

Scaling Laws for Multilingual Neural Machine Translation [45.6]
モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
論文参考訳（メタデータ） (Sun, 19 Feb 2023 18:43:24 GMT)
マルチリンガルな機械翻訳におけるScaling Lawの検証結果。興味深い結果が多いが近しい言語のマルチリンガル翻訳は効果が大きいという説に対して「(En→{De, Fr})への翻訳を訓練したモデルと、非関連言語(En→{De, Zh})で訓練したモデルのスケーリング挙動に有意な差はみられない。」という結果は面白い。
staka/takomt · Hugging Faceとか個人でやるには結構大変で当面はJA⇔ENに注力しようと思っているがとても面白い論文。

ERNIE-Code

ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages [37.6]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文参考訳（メタデータ） (Tue, 13 Dec 2022 17:21:44 GMT)
マルチリンガルなcode-to-text, text-to-code, code-to-code, text-to-text
translate-trainとzero-shotの比較も興味深い。

Multiverse: Multilingual Evidence for Fake News Detection

Multiverse: Multilingual Evidence for Fake News Detection [71.5]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文参考訳（メタデータ） (Fri, 25 Nov 2022 18:24:17 GMT)
マルチリンガルなFake News Detection。多言語を用いることで広いエビデンスが利用可能。観点が多様化する効果もありそう。
リポジトリはs-nlp/multilingual-fake-news: The code related to the paper (github.com)

Long-Document Cross-Lingual Summarization

Long-Document Cross-Lingual Summarization [15.8]
言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。ペルセウスの文書の平均の長さは2,000以上のトークンである。
論文参考訳（メタデータ） (Thu, 1 Dec 2022 15:24:16 GMT)
長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
ｍBART＋LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30