WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.5] 我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。 そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。 論文参考訳(メタデータ)参考訳(全文) (Wed, 27 Oct 2021 12:25:21 GMT)
「Overall, we believe that pre-training a large-scale multimodal foundation model is indeed a potential approach to achieving AGI.」や「Overall, these findings indicate that pre-training a multimodal (visual and textual) foundation model can make a giant stride towards AGI.」などAGIを意識した記載が多くこれも面白い。この研究の先にAGIが見えているんだろうか?