コンテンツへスキップ
- WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.5]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。 そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 27 Oct 2021 12:25:21 GMT)- 極めて大規模な画像/テキストの事前学習モデル。CLIPとの比較が興味深く、性能はCLIPを超えるとのこと。
- 「Overall, we believe that pre-training a large-scale multimodal foundation model is indeed a potential approach to achieving AGI.」や「Overall, these findings indicate that pre-training a multimodal (visual and textual) foundation model can make a giant stride towards AGI.」などAGIを意識した記載が多くこれも面白い。この研究の先にAGIが見えているんだろうか?
- s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning [47.3]
条件付き生成タスクに予めトレーニングされたトランスフォーマーを採用するシーケンス・ツー・シーケンスの微調整ツールキット s2s-ft を提案する。 S2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を達成する。
論文 参考訳(メタデータ) (Tue, 26 Oct 2021 12:45:34 GMT) - 生成系タスクに適したモデルの提案。同パラメータ数の比較でAbstract Summarization / CNNDMでPEGASUSを超える性能。
- リポジトリはhttps://github.com/microsoft/unilm/tree/master/s2s-ft