Multilingual – ページ 11 – arXiv最新論文の紹介

XLM-K: multilingual Knowledgeを取り入れた多言語事前学習モデル

XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual Knowledge [31.8]
言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。本稿では,事前学習に多言語知識を取り入れたクロス言語モデルXLM-Kを提案する。
論文参考訳（メタデータ） (Sun, 26 Sep 2021 11:46:20 GMT)
- 多言語プリトレーニングをMasked Entity Prediction TaskとObject Entailment Taskで強化、言語間の転移性能が向上したとの報告。mBERTやXLM-Rを上回る性能。

MDAPT(Multilingual Domain Adaptive PreTraining): 多言語ドメイン固有モデルの有効性

MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.6]
一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
論文参考訳（メタデータ）参考訳（全文） (Tue, 14 Sep 2021 11:50:26 GMT)
- 金融やバイオなどあるドメイン固有の処理を行う多言語モデルを構築する場合、多言語ドメイン固有な事前学習（アダプト）を行うことが有効とした論文。様々なパターンで性能比較が行われており参考になる。（各言語のモデルを構築せずとも）固有ドメイン・多言語の統一モデルに意義があるとされているのが興味深い。
- リポジトリはhttps://github.com/RasmusKaer/mDAPT_supplements、https://github.com/mahartmann/mdapt

xGQA: 7言語の Visual Question Answering

xGQA: Cross-Lingual Visual Question Answering [100.4]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。確立された英語GQAデータセットを7言語に拡張する。本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文参考訳（メタデータ） (Mon, 13 Sep 2021 15:58:21 GMT)
- 7言語に対応するvisual question answeringデータセット。GQAデータセットを7言語に拡張。ゼロショットでの回答は難しく、few-shotのセッティングだと精度が改善するが依然として簡単ではないタスクであるよう。
- リポジトリはhttps://github.com/Adapter-Hub/xGQA

英語文書検索タスクを非英語に転送

Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.3]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。 6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文参考訳（メタデータ）参考訳（全文） (Fri, 3 Sep 2021 17:15:38 GMT)
- 英語のデータ＋mBERTで作ったモデルが他言語のタスクでも有効であることを示した報告。色々なタスクで同様の性質が報告されているが、中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語と複数言語の文書検索タスクで結果を確認しており参考になる。

MultiEURLEX : ゼロショットマルチリンガルTranferのためのデータセット

MultiEURLEX — A multi-lingual and multi-label legal document classification dataset for zero-shot cross-lingual transfer [13.2]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Sep 2021 12:52:55 GMT)
- EUの法律とその翻訳文書を活用したデータセットを作成、マルチリンガルモデルを活用してゼロショットの対応が可能か検証するデータセットとしての活用を提案。いくつかの手法を試しておりfine-tuningの効率化を狙ったadaptation strategies（https://arxiv.org/abs/1902.00751など）が多言語をゼロショットで転送する場合にも有効としている。
- リポジトリはhttps://github.com/nlpaueb/multi-eurlex
- マルチリンガルなゼロショットは非常に面白く実社会に対する影響が大きい（達成されると言語の壁が無くなる）ので、このようなデータセットが整備されるのは重要だと思う。adapterが効果的に機能するという報告も興味深い。

マルチリンガルモデルの効果、RemBERTがHugging Faceに

Are the Multilingual Models Better? Improving Czech Sentiment with Transformers [1.5]
チェコ語における極性検出の課題を3つの感情極性データセットを用いて検討する。我々は5つの多言語モデルと3つの単言語モデルを用いて微調整および実験を行う。 3つのデータセットすべてに対して、最先端の新たな結果が得られます。
論文参考訳（メタデータ） (Tue, 24 Aug 2021 10:50:01 GMT)
- チェコ語のセンチメント分析においてXLM-R-Largeがモノリンガルモデルを上回る性能を出したとの報告。マルチリンガルモデルの有効性を示していて、言語資源が少ない日本語にも参考になる結果のように思える。

性能の良い事前学習済みマルチリンガルモデルモデルであるRemBERTがHuggngfaceに取り込まれており、このようなモデルの利用も広まっていくのだと思う。いまのところ日本語はT5などBERT以降の構造＆モノリンガル大規模事前学習モデルで公開されているものが存在する。とはいえ、データセットの規模等を考えると海外研究機関のマルチリンガルモデルより上の性能を出し続けられるかは難しい気がしなくもない。
FuguMTのためにクロールしたデータセットでバイリンガル版T5とか作ろうかと思わなくもないがコスト的につらいなーと思う最近。

ゼロショットでの文章リライト

Towards Universality in Multilingual Text Rewriting [9.0]
本モデルでは、英語の見習いのみを用いて、非英語言語でゼロショットの感情伝達を行うことができることを示す。次に、我々のモデルが複数の属性を同時に変更できることを示します。
論文参考訳（メタデータ） (Fri, 30 Jul 2021 16:48:04 GMT)
- 少ない英語の事例のみを用いることで英語以外の言語でテキストのリライトができるモデルを構築できたとの報告。論文中の日本語の例が興味深い。
- 翻訳モデルを中間に挟むのは現実的ではあると思うが、このようにゼロショットで結果を出すマルチリンガルモデルには未来を感じる。

MNMT(Multilingual Neural Machine Translation)における冗長部分の活用

More Parameters? No Thanks! [43.7]
多言語ニューラルマシン翻訳MNMTにおけるモデル容量と負の干渉の長期的問題について検討する。我々はネットワークプルーニング手法を用いて、トレーニングされたMNMTモデルからパラメータの50-70%をプルーニングすると、BLEUスコアの0.29-1.98ドロップしか得られないことを観察する。我々は,MNMTの冗長なパラメータを反復的に訓練し,多言語性を維持しながらバイリンガル表現を改善する新しい適応戦略を提案する。
論文参考訳（メタデータ）参考訳（全文） (Tue, 20 Jul 2021 17:04:15 GMT)
- マルチリンガルなニューラル機械翻訳には冗長なパラメータが多い。著者らはマルチリンガルモデルから50%パラメータを削減したのちに、冗長だったweightを活用するトレーニングを行うことで削減前のモデルからBLEUスコアを改善できたとのこと。
- コード等はhttps://github.com/zeecoder606/PF-Adaptationで公開予定とのこと。

CMM(Configurable Multilingual Model): マルチリンガルな音声認識

A Configurable Multilingual Model is All You Need to Recognize All Languages [52.3]
本稿では,1回しか訓練されない新しい多言語モデル(CMM)を提案する。 CMMは、ユーザが1つ、2つ、3つの言語を選択すると、一般的な多言語モデルから26.4%、16.9%、および10.4%の単語誤りを減らす。
論文参考訳（メタデータ） (Tue, 13 Jul 2021 06:52:41 GMT)
- 言語指定可能なマルチリンガルな音声認識モデルを構築することで1言語のモデル及び通常のマルチリンガルモデルの性能を上回ったとの報告。
- 認識対象の言語が分かっているほうが聞き取りやすい、多言語での訓練が単言語においても有効（人間が出せる音は言語が変わっても共通部分がある）というのは人間っぽいなという感想を抱いた。

Decomposed attentionを使ったマルチリンガル表現

Learning Multilingual Representation for Natural Language Understanding with Enhanced Cross-Lingual Supervision [42.7]
本稿では,MA(Mixed Attention)の代替として,DA(Decomposed attention)というネットワークを提案する。 DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
論文参考訳（メタデータ） (Wed, 9 Jun 2021 16:12:13 GMT)
- mBERTのようなマルチリンガルモデルによってゼロショットで他言語に対応可能なモデルを構築できることが知られている。バイリンガルな言語間コーパス（翻訳文によるコーパス）の情報を活用してより良い事前学習モデルを作ったという報告。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31