コンテンツへスキップ
- FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions [0.0]
このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。 データセットにはスペイン語や英語など、広く話されている言語も含まれている。
論文 参考訳(メタデータ) (Tue, 5 Oct 2021 13:33:08 GMT)
- StoryDB: Broad Multi-language Narrative Dataset [0.3]
StoryDBは42の異なる言語にストーリーを含むテキストのコーパスである。 すべてのストーリーは言語にまたがってインデックス化され、ジャンルやトピックなどのタグがラベル付けされる。
論文 参考訳(メタデータ) (Wed, 29 Sep 2021 12:59:38 GMT)- 42言語の物語のストーリー(概略)のデータセット。論文中にGoogle Driveのリンクがあるような配布形式なっている。その上で「Task A: プロットの(マルチラベルな)タグ分類」「Task B: クロスリンガルな設定のTask A(ある言語で学習した結果のゼロショット)」「Task C: 全言語で重複するプロットで学習」という3つのタスクを設定。
- https://wandb.ai/altsoph/projects が検証結果のよう
- XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual Knowledge [31.8]
言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。 本稿では,事前学習に多言語知識を取り入れたクロス言語モデルXLM-Kを提案する。
論文 参考訳(メタデータ) (Sun, 26 Sep 2021 11:46:20 GMT)- 多言語プリトレーニングをMasked Entity Prediction TaskとObject Entailment Taskで強化、言語間の転移性能が向上したとの報告。mBERTやXLM-Rを上回る性能。
- MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.6]
一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。 本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 14 Sep 2021 11:50:26 GMT)
- xGQA: Cross-Lingual Visual Question Answering [100.4]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。 確立された英語GQAデータセットを7言語に拡張する。 本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (Mon, 13 Sep 2021 15:58:21 GMT)
- Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.3]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。 6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。 弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 3 Sep 2021 17:15:38 GMT)- 英語のデータ+mBERTで作ったモデルが他言語のタスクでも有効であることを示した報告。色々なタスクで同様の性質が報告されているが、中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語と複数言語の文書検索タスクで結果を確認しており参考になる。
- MultiEURLEX — A multi-lingual and multi-label legal document classification dataset for zero-shot cross-lingual transfer [13.2]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。 データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。 そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 2 Sep 2021 12:52:55 GMT)- EUの法律とその翻訳文書を活用したデータセットを作成、マルチリンガルモデルを活用してゼロショットの対応が可能か検証するデータセットとしての活用を提案。いくつかの手法を試しておりfine-tuningの効率化を狙ったadaptation strategies(https://arxiv.org/abs/1902.00751など)が多言語をゼロショットで転送する場合にも有効としている。
- Are the Multilingual Models Better? Improving Czech Sentiment with Transformers [1.5]
チェコ語における極性検出の課題を3つの感情極性データセットを用いて検討する。 我々は5つの多言語モデルと3つの単言語モデルを用いて微調整および実験を行う。 3つのデータセットすべてに対して、最先端の新たな結果が得られます。
論文 参考訳(メタデータ) (Tue, 24 Aug 2021 10:50:01 GMT)- チェコ語のセンチメント分析においてXLM-R-Largeがモノリンガルモデルを上回る性能を出したとの報告。マルチリンガルモデルの有効性を示していて、言語資源が少ない日本語にも参考になる結果のように思える。
- 性能の良い事前学習済みマルチリンガルモデルモデルであるRemBERTがHuggngfaceに取り込まれており、このようなモデルの利用も広まっていくのだと思う。いまのところ日本語はT5などBERT以降の構造&モノリンガル大規模事前学習モデルで公開されているものが存在する。とはいえ、データセットの規模等を考えると海外研究機関のマルチリンガルモデルより上の性能を出し続けられるかは難しい気がしなくもない。
- FuguMTのためにクロールしたデータセットでバイリンガル版T5とか作ろうかと思わなくもないがコスト的につらいなーと思う最近。
- Towards Universality in Multilingual Text Rewriting [9.0]
本モデルでは、英語の見習いのみを用いて、非英語言語でゼロショットの感情伝達を行うことができることを示す。 次に、我々のモデルが複数の属性を同時に変更できることを示します。
論文 参考訳(メタデータ) (Fri, 30 Jul 2021 16:48:04 GMT)- 少ない英語の事例のみを用いることで英語以外の言語でテキストのリライトができるモデルを構築できたとの報告。論文中の日本語の例が興味深い。
- 翻訳モデルを中間に挟むのは現実的ではあると思うが、このようにゼロショットで結果を出すマルチリンガルモデルには未来を感じる。
- More Parameters? No Thanks! [43.7]
多言語ニューラルマシン翻訳MNMTにおけるモデル容量と負の干渉の長期的問題について検討する。 我々はネットワークプルーニング手法を用いて、トレーニングされたMNMTモデルからパラメータの50-70%をプルーニングすると、BLEUスコアの0.29-1.98ドロップしか得られないことを観察する。 我々は,MNMTの冗長なパラメータを反復的に訓練し,多言語性を維持しながらバイリンガル表現を改善する新しい適応戦略を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 20 Jul 2021 17:04:15 GMT)