Multilingual – ページ 8 – arXiv最新論文の紹介

多言語のdetoxification

Exploring Cross-lingual Textual Style Transfer with Large Multilingual Language Models [78.1]
デトキシフィケーション(detoxification)とは、本来の有毒なテキストの意味と流布を保ちつつ、丁寧なスタイルでテキストを生成するタスクである。本研究は多言語間の解毒と,このような大規模多言語モデルの挙動について検討する。
論文参考訳（メタデータ）参考訳（全文） (Sun, 5 Jun 2022 20:02:30 GMT)
- 多言語でのdetoxificationに関する報告。
- 英語でdetoxificationを学習した多言語モデルがロシア語のdetoxificationに有効か興味があったが難しそうという実験結果。「We suggest that the reason for this is not a lack of data, but the model’s inability to capture the pattern between toxic and non-toxic text and transfer it to another language by itself.」とのこと。
- 翻訳を通す手法はまぁまぁワークするよう。ある程度想像はできるとはいえ、Backtranslation Setupの詳細が知りたい……

Multilingual Keyphrase生成データセット: EcommerceMKPとAcademicMKP

Retrieval-Augmented Multilingual Keyphrase Generation with Retriever-Generator Iterative Training [66.6]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。我々は多言語キーフレーズ生成という新しい設定に注意を払っている。非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文参考訳（メタデータ） (Sat, 21 May 2022 00:45:21 GMT)
- マルチリンガルなキーフレーズ作成データセット。言語はe-コマースがドイツ語、フランス語、スペイン語、イタリア語、アカデミックが中国語と韓国語。
- 言語資源が豊富な英語のデータを利用するRetrieval-Augmented Multilingual Keyphrase Generation (RAMKG) というフレームワークでmBERTのベースラインをoutperfomとのこと。
- リポジトリはYifan-Gao/multilingual_keyphrase_generation · GitHubとのことだが、現状ではデータ等アップロードされていない。

XMOD(Cross-lingual Modular): 多言語モデルの転移性能の向上

Lifting the Curse of Multilinguality by Pre-training Modular Transformers [72.5]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文参考訳（メタデータ） (Thu, 12 May 2022 17:59:56 GMT)
- 事前学習時から言語固有のエリアを持っておくことにより、その後の多言語なfine tuningで高性能を達成
- リポジトリはfairseq/examples/xmod at main · facebookresearch/fairseq · GitHub

Polyglot Prompt：マルチリンガル、マルチタスクなプロンプト

Polyglot Prompt: Multilingual Multitask PrompTraining [35.7]
異なる言語から異なるタスクを(タスク/言語固有のモジュールを使わずに)モノリシックなフレームワークでモデル化できるだろうか? 学習フレームワークであるPolyglot Promptを開発し、適切な多言語プロンプトエンジニアリングの後、異なる言語やタスクの統一的な意味空間を学習するためのプロンプト手法を導入する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 29 Apr 2022 17:40:50 GMT)
- 英語を対象とすることが多いprompt系のモデルをマルチリンガルで、という報告。
- Cross-lingual zero-shot transferが一定程度可能そうなのが興味深い。また、「(1) Could different languages beneﬁt from each other by a monolithic framework?」「Yes」や「(2) Why does PolyPrompt work?」「The performance improvement of PolyPrompt mainly comes from the languages of non-Indo-European language families」という議論も面白い。日本語を扱う場合も重要だと思う。
- リポジトリはGitHub – jinlanfu/Polyglot_Prompt、（実態はDataLabs）

NLSSum (Neural Label Search for Summarization): 多言語抽出型要約

Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.9]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。本研究では,NLS(Neural Label Search for Summarization)を提案する。我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文参考訳（メタデータ）参考訳（全文） (Thu, 28 Apr 2022 14:02:16 GMT)
- MUSEを使用した単語置き換え、機械翻訳などにより英語以外の言語用にデータを拡張、抽出型要約に使うラベルを作りモデル構築を行い、Zero-shotの要約で優れた性能を達成。XLMRSumに比べてMLSUMのROUGE-Lを2pt改善している。

マルチリンガルな検索におけるベストプラクティスに向けて

Towards Best Practices for Training Multilingual Dense Retrieval Models [54.9]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文参考訳（メタデータ） (Tue, 5 Apr 2022 17:12:53 GMT)
- (1) マルチリンガルな事前学習モデルはあるがデータはない、(2) マルチリンガルな事前学習モデルとデータの両方がある（データの言語でいくつかのバリエーションが存在）、(3)　データはあるが事前学習モデルがない、のパターンでどのような対応がありえるかまとめた論文。
- 結果は参考にはなるのだが、機械翻訳を挟むアプローチが検討されていないのはなぜなんだろう・・・？

KELIP: 大規模バイリンガル・マルチモーダルモデル（韓国語/英語）

Large-scale Bilingual Language-Image Contrastive Learning [17.2]
我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文参考訳（メタデータ） (Mon, 28 Mar 2022 03:02:03 GMT)
- 大規模なバイリンガル・マルチモーダルモデル。
- 英語とのバイリンガルモデルは日本語に対しても重要だと思っていて検証結果が面白かった。「bilingual KELIP can capture different characteristics of each cultural vision information for the same meaning of words but different languages」は非常に面白い性質。
  - KELIP = Korean and English bilingual contrastive Language-Image Pre-training？
- リポジトリはGitHub – navervision/KELIP: Official PyTorch implementation of “Large-scale Bilingual Language-Image Contrastive Learning” (ICLRW 2022)　デモはKELIP – a Hugging Face Space by navervision

XTREME-S: クロスリンガルな音声表現ベンチマーク

XTREME-S: Evaluating Cross-lingual Speech Representations [75.4]
XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 21 Mar 2022 06:50:21 GMT)
- speech recognition、speech classiﬁcation、speech translation、speech retrievalのタスクに対する多言語データセット
- Huggingfaceからダウンロード可能とのことだが、現時点では404 https://huggingface.co/datasets/google/xtreme_s

ｍSLAM: multilingual Speech and LAnguage Model

mSLAM: Massively multilingual joint pre-training for speech and text [43.3]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Feb 2022 02:26:40 GMT)
- w2v-BERT＋SpanBERT+ Connectionist Temporal Classificationで音声とテキストを統一的に扱うモデルを事前学習。SLAM(Fugu-MT 論文翻訳(概要): SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training (fugumt.com))のmultilingual版
- 特に音声関連のタスクで能力が向上しているよう。

IGLUE(Image-Grounded Language Understanding Evaluation): 多言語/画像/言語理解のベンチマーク

IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
論文参考訳（メタデータ） (Thu, 27 Jan 2022 18:53:22 GMT)
- 画像＋言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
- 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念（翻訳モデル開発者としてはうれしいが、未来感がない）
- プロジェクトサイトはHome | IGLUE (iglue-benchmark.github.io)

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30