WenLan 2.0: マルチモーダルな巨大事前学習モデル

  • WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.5]
    我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。 そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 27 Oct 2021 12:25:21 GMT)
    • 極めて大規模な画像/テキストの事前学習モデル。CLIPとの比較が興味深く、性能はCLIPを超えるとのこと。
    • 「Overall, we believe that pre-training a large-scale multimodal foundation model is indeed a potential approach to achieving AGI.」や「Overall, these findings indicate that pre-training a multimodal (visual and textual) foundation model can make a giant stride towards AGI.」などAGIを意識した記載が多くこれも面白い。この研究の先にAGIが見えているんだろうか?
      • 個人的には可能性を感じていて興味津々

s2s-ft: 自然言語生成に適した事前学習モデル

  • s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning [47.3]
    条件付き生成タスクに予めトレーニングされたトランスフォーマーを採用するシーケンス・ツー・シーケンスの微調整ツールキット s2s-ft を提案する。 S2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を達成する。
    論文  参考訳(メタデータ)   (Tue, 26 Oct 2021 12:45:34 GMT)
  • 生成系タスクに適したモデルの提案。同パラメータ数の比較でAbstract Summarization / CNNDMでPEGASUSを超える性能。
  • リポジトリはhttps://github.com/microsoft/unilm/tree/master/s2s-ft