INTERN: 強力なGeneral Vision Model

  • INTERN: A New Learning Paradigm Towards General Vision [117.3]
    我々はInterNという新しい学習パラダイムを開発した。 複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。 ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
    論文  参考訳(メタデータ)   (Tue, 16 Nov 2021 18:42:50 GMT)
    • 大規模LMのようなGeneral Vision Modelを構築することで少数の学習データで優れた性能を発揮するモデルを作れるとの報告。GV-D:General Vision Dataとして100億サンプル、119Kコンセプトのデータセット、 GV-A: General Vision Architecture としてTransformer+Convolutionalな構造、GV-B: General Vision Benchmark として26のタスクを用いて段階的な学習を行うことでCLIPを超える強力なゼネラリストモデルを構築したとのこと。
    • 実装等公開予定とのことで詳細はそこで確認したい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です