マルチタスク・マルチリンガルのための大規模・効率的なMoE(Mixture of Experts)学習

  • Scalable and Efficient MoE Training for Multitask Multilingual Models [56.0]
    我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。 また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
    論文  参考訳(メタデータ)   (Wed, 22 Sep 2021 00:57:46 GMT)
    • 極めて大規模なモデルを構築可能な手法に関する論文。既存手法に比べて同じハードウェアで8倍のモデルサイズの学習を実現。
    • 構築された機械翻訳モデルの学習効率と性能が凄い。denseなモデルに比べて10倍収束が速い。単純な個別のバイリンガルモデルにくらべてマルチリンガル設定でBLEU +4pt、M2M-100に比べてBLEU + 3pt。などすごい数値が並んでいる。
    • リポジトリはhttps://github.com/microsoft/DeepSpeed、チュートリアルへのリンクもあって非常に参考になる。

Fact Checkingのサーベイ

  • Automated Fact-Checking: A Survey [5.7]
    自然言語処理(NLP)の分野の研究者は、ファクトチェックデータセットを構築することで、このタスクに貢献している。 本稿では,クレーム検出とクレーム検証の両方を対象とする自動ファクトチェックについて検討する。
    論文  参考訳(メタデータ)   (Thu, 23 Sep 2021 15:13:48 GMT)
    • 以前紹介したものとは別チームによるFact-Checkingのサーベイ。データセットの名前が異なったりしていて興味深い(?)

MiRANews: 複数のソースを用いた単一ドキュメントの要約

  • MiRANews: Dataset and Benchmarks for Multi-Resource-Assisted News Summarization [19.1]
    我々は、新しいデータセットMiRANewsと既存の要約モデルをベンチマークする。 データ分析を通じて、責任を負うのはモデルだけではないことを示します。MiRANewsのゴールドサマリーで言及されている事実の27%以上は、メインソースの記事よりもドキュメントのアシストに重点を置いています。 MiRANewsで微調整された事前学習モデルから生成された要約の誤り解析により、これはモデルにさらに大きな影響を及ぼすことが明らかとなった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 22 Sep 2021 10:58:40 GMT)
    • 補助的なリソースを用いる要約タスクとデータセットを提案。multi-document summarizationとは異なり、補助的なリソースを用いながら、あくまで単一ドキュメントの要約を目指している点が特徴。データセットは150Kと規模が大きい。