XMOD(Cross-lingual Modular): 多言語モデルの転移性能の向上

  • Lifting the Curse of Multilinguality by Pre-training Modular Transformers [72.5]
    多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。 言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。 我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
    論文  参考訳(メタデータ)   (Thu, 12 May 2022 17:59:56 GMT)

Polyglot Prompt:マルチリンガル、マルチタスクなプロンプト

  • Polyglot Prompt: Multilingual Multitask PrompTraining [35.7]
    異なる言語から異なるタスクを(タスク/言語固有のモジュールを使わずに)モノリシックなフレームワークでモデル化できるだろうか? 学習フレームワークであるPolyglot Promptを開発し、適切な多言語プロンプトエンジニアリングの後、異なる言語やタスクの統一的な意味空間を学習するためのプロンプト手法を導入する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 29 Apr 2022 17:40:50 GMT)
    • 英語を対象とすることが多いprompt系のモデルをマルチリンガルで、という報告。
    • Cross-lingual zero-shot transferが一定程度可能そうなのが興味深い。また、「(1) Could different languages benefit from each other by a monolithic framework?」「Yes」や「(2) Why does PolyPrompt work?」「The performance improvement of PolyPrompt mainly comes from the languages of non-Indo-European language families」という議論も面白い。日本語を扱う場合も重要だと思う。

NLSSum (Neural Label Search for Summarization): 多言語抽出型要約

  • Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.9]
    ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。 本研究では,NLS(Neural Label Search for Summarization)を提案する。 我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 28 Apr 2022 14:02:16 GMT)
    • MUSEを使用した単語置き換え、機械翻訳などにより英語以外の言語用にデータを拡張、抽出型要約に使うラベルを作りモデル構築を行い、Zero-shotの要約で優れた性能を達成。XLMRSumに比べてMLSUMのROUGE-Lを2pt改善している。

マルチリンガルな検索におけるベストプラクティスに向けて

  • Towards Best Practices for Training Multilingual Dense Retrieval Models [54.9]
    我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。 本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
    論文  参考訳(メタデータ)   (Tue, 5 Apr 2022 17:12:53 GMT)
    • (1) マルチリンガルな事前学習モデルはあるがデータはない、(2) マルチリンガルな事前学習モデルとデータの両方がある(データの言語でいくつかのバリエーションが存在)、(3) データはあるが事前学習モデルがない、のパターンでどのような対応がありえるかまとめた論文。
    • 結果は参考にはなるのだが、機械翻訳を挟むアプローチが検討されていないのはなぜなんだろう・・・?

KELIP: 大規模バイリンガル・マルチモーダルモデル(韓国語/英語)

  • Large-scale Bilingual Language-Image Contrastive Learning [17.2]
    我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。 我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。 実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
    論文  参考訳(メタデータ)   (Mon, 28 Mar 2022 03:02:03 GMT)

XTREME-S: クロスリンガルな音声表現ベンチマーク

  • XTREME-S: Evaluating Cross-lingual Speech Representations [75.4]
    XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。 本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 21 Mar 2022 06:50:21 GMT)
    • speech recognition、speech classification、speech translation、speech retrievalのタスクに対する多言語データセット
    • Huggingfaceからダウンロード可能とのことだが、現時点では404 https://huggingface.co/datasets/google/xtreme_s

mSLAM: multilingual Speech and LAnguage Model

IGLUE(Image-Grounded Language Understanding Evaluation): 多言語/画像/言語理解のベンチマーク

  • IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5]
    画像認識言語理解評価ベンチマークについて紹介する。iglueは、既存のデータセットを集約し、visual question answering, cross-modal retrieval, grounded reasoning, grounded entailmentタスクを20の多様な言語にまたがって作成する。 評価結果から, translate-test transferがゼロショット転送よりも優れていること, fewショット学習が多くのタスクに役立てることが困難であることが判明した。
    論文  参考訳(メタデータ)   (Thu, 27 Jan 2022 18:53:22 GMT)
    • 画像+言語理解が必要なタスクに対して、多言語でのデータセット・ベンチマークの提案。一部タスクには日本語が含まれているのがうれしい。
    • 現状は翻訳エンジンを介する方がマルチリンガルモデルによるzero shotを上回るようでちょっと残念(翻訳モデル開発者としてはうれしいが、未来感がない)

Multilingual Machine Translationの実践的アプローチ

  • Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning [48.2]
    数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。 私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。 この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
    論文  参考訳(メタデータ)   (Thu, 13 Jan 2022 18:09:08 GMT)
    • 多言語機械翻訳モデルの実現に向けた様々な実験結果が参考になる。モデルが対応する言語数の増減、linguistic similarityを考慮した増減、パラ / モノリンガルデータ数が与える影響、ドメイン相違の影響、pretraining / finetuning / co-training / iterative back translationなど学習方法の影響など様々な観点があり興味深い。

Homepage2Vec

  • Language-Agnostic Website Embedding and Classification [12.9]
    92言語で100万以上のWebサイトを持つデータセットをリリースし、Curlieから相対ラベルを収集しました。 ホームページに基づいてWebサイトを分類・埋め込みするマシン学習モデルであるHomepage2Vecを紹介する。 Homepage2Vecは、マクロ平均F1スコア0.90のWebサイトを正しく分類し、低および高ソース言語で安定したパフォーマンスを示す。
    論文  参考訳(メタデータ)   (Mon, 10 Jan 2022 22:31:48 GMT)