- GLM-130B: An Open Bilingual Pre-trained Model [40.6]
我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。 100Bスケールのモデルを少なくともGPT-3と同程度にオープンソース化する試みである。 本稿では, GLM-130Bの設計選択, 効率と安定性の両面でのトレーニング戦略, エンジニアリングの取り組みを含む, GLM-130B のトレーニングプロセスを紹介する。
論文 参考訳(メタデータ) (Wed, 5 Oct 2022 17:34:44 GMT)- 英語・中国語バイリンガルな大規模言語モデル、モデルやトレーニングプロセスが公開されている、性能が高い以外にもRTX 3090 (24G)×4という構成で動作可能なのは凄い
- リポジトリはTHUDM/GLM-130B: GLM-130B: An Open Bilingual Pre-Trained Model (github.com)
タグ: Multilingual
Whisper:OpenAIの高性能ASR
- Introducing Whisper (openai.com)
- Robust Speech Recognition via Large-Scale Weak Supervision
- 我々は,インターネット上の大量の音声の書き起こしのため音声処理システムの能力について検討する。マルチリンガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークに適合する。我々は、堅牢な音声処理のさらなる作業の基盤となるモデルと推論コードをリリースしている。
- コードはopenai/whisper (github.com)
OpenAIの音声認識システム。極めて大規模なデータ(全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。)が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。
多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる
PaLI: Pathways Language and Image
- PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.1]
PaLI(PathwaysLanguage and Image model)は、このアプローチを言語と視覚の合同モデリングに拡張する。 我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
論文 参考訳(メタデータ) (Wed, 14 Sep 2022 17:24:07 GMT)- 13BパラメータのmT5-XXL、2Bパラメータ のViT-G or 4Bパラメータの ViT-e を用いたマルチリンガル・マルチモーダルなモデル、FlamingoやCoCaを超える性能を達成とのこと。多言語化においてはモデルサイズが重要(かつ大規模でないと厳しそう)という印象。
- モデルカード、データカードがgoogle-research/pali at master · google-research/google-research (github.com)に存在。本件で構築されたデータセットWebLI は9.6Gインスタンス、260TB…
DEMSD(Deep Encoder with Multiple Shallow Decoders )を使った多言語機械翻訳
- Multilingual Neural Machine Translation with Deep Encoder and Multiple Shallow Decoders [77.2]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。 2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文 参考訳(メタデータ) (Sun, 5 Jun 2022 01:15:04 GMT)- 機械翻訳では深いエンコーダと浅いデコーダの組み合わせが有効である。この論文では多対1の機械翻訳での有効性の検証、多対多機械翻訳の場合の対応を報告している。多対多機械翻訳ではデコーダ部分を複数の浅い構造とすることで翻訳性能と速度で良好な結果が出せたとのこと。
多言語のdetoxification
- Exploring Cross-lingual Textual Style Transfer with Large Multilingual Language Models [78.1]
デトキシフィケーション(detoxification)とは、本来の有毒なテキストの意味と流布を保ちつつ、丁寧なスタイルでテキストを生成するタスクである。 本研究は多言語間の解毒と,このような大規模多言語モデルの挙動について検討する。
論文 参考訳(メタデータ) 参考訳(全文) (Sun, 5 Jun 2022 20:02:30 GMT)- 多言語でのdetoxificationに関する報告。
- 英語でdetoxificationを学習した多言語モデルがロシア語のdetoxificationに有効か興味があったが難しそうという実験結果。「We suggest that the reason for this is not a lack of data, but the model’s inability to capture the pattern between toxic and non-toxic text and transfer it to another language by itself.」とのこと。
- 翻訳を通す手法はまぁまぁワークするよう。ある程度想像はできるとはいえ、Backtranslation Setupの詳細が知りたい……
Multilingual Keyphrase生成データセット: EcommerceMKPとAcademicMKP
- Retrieval-Augmented Multilingual Keyphrase Generation with Retriever-Generator Iterative Training [66.6]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。 我々は多言語キーフレーズ生成という新しい設定に注意を払っている。 非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (Sat, 21 May 2022 00:45:21 GMT)- マルチリンガルなキーフレーズ作成データセット。言語はe-コマースがドイツ語、フランス語、スペイン語、イタリア語、アカデミックが中国語と韓国語。
- 言語資源が豊富な英語のデータを利用するRetrieval-Augmented Multilingual Keyphrase Generation (RAMKG) というフレームワークでmBERTのベースラインをoutperfomとのこと。
- リポジトリはYifan-Gao/multilingual_keyphrase_generation · GitHubとのことだが、現状ではデータ等アップロードされていない。
XMOD(Cross-lingual Modular): 多言語モデルの転移性能の向上
- Lifting the Curse of Multilinguality by Pre-training Modular Transformers [72.5]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。 言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。 我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (Thu, 12 May 2022 17:59:56 GMT)- 事前学習時から言語固有のエリアを持っておくことにより、その後の多言語なfine tuningで高性能を達成
- リポジトリはfairseq/examples/xmod at main · facebookresearch/fairseq · GitHub
Polyglot Prompt:マルチリンガル、マルチタスクなプロンプト
- Polyglot Prompt: Multilingual Multitask PrompTraining [35.7]
異なる言語から異なるタスクを(タスク/言語固有のモジュールを使わずに)モノリシックなフレームワークでモデル化できるだろうか? 学習フレームワークであるPolyglot Promptを開発し、適切な多言語プロンプトエンジニアリングの後、異なる言語やタスクの統一的な意味空間を学習するためのプロンプト手法を導入する。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 29 Apr 2022 17:40:50 GMT)- 英語を対象とすることが多いprompt系のモデルをマルチリンガルで、という報告。
- Cross-lingual zero-shot transferが一定程度可能そうなのが興味深い。また、「(1) Could different languages benefit from each other by a monolithic framework?」「Yes」や「(2) Why does PolyPrompt work?」「The performance improvement of PolyPrompt mainly comes from the languages of non-Indo-European language families」という議論も面白い。日本語を扱う場合も重要だと思う。
- リポジトリはGitHub – jinlanfu/Polyglot_Prompt、(実態はDataLabs)
NLSSum (Neural Label Search for Summarization): 多言語抽出型要約
- Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.9]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。 本研究では,NLS(Neural Label Search for Summarization)を提案する。 我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 28 Apr 2022 14:02:16 GMT)- MUSEを使用した単語置き換え、機械翻訳などにより英語以外の言語用にデータを拡張、抽出型要約に使うラベルを作りモデル構築を行い、Zero-shotの要約で優れた性能を達成。XLMRSumに比べてMLSUMのROUGE-Lを2pt改善している。
マルチリンガルな検索におけるベストプラクティスに向けて
- Towards Best Practices for Training Multilingual Dense Retrieval Models [54.9]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。 本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (Tue, 5 Apr 2022 17:12:53 GMT)- (1) マルチリンガルな事前学習モデルはあるがデータはない、(2) マルチリンガルな事前学習モデルとデータの両方がある(データの言語でいくつかのバリエーションが存在)、(3) データはあるが事前学習モデルがない、のパターンでどのような対応がありえるかまとめた論文。
- 結果は参考にはなるのだが、機械翻訳を挟むアプローチが検討されていないのはなぜなんだろう・・・?