T-MARS: Text-Masking and Re-Scoring

  • T-MARS: Improving Visual Representations by Circumventing Text Feature Learning [96.9]
    LAIONの画像の40%近くは、字幕と重なるテキストを含んでいるという、我々の観察に動機づけられた新しいデータフィルタリング手法を提案する。 我々のシンプルでスケーラブルなアプローチであるT-MARSは、テキストが残りの視覚的特徴を支配するペアのみをフィルタリングします。
    論文  参考訳(メタデータ)   (Thu, 6 Jul 2023 16:59:52 GMT)
  • 効果的なデータフィルタリング手法の提案、画像からテキスト部分をマスキング、キャプションとの類似度を取るシンプルな手法。「Our proposed approach is based on the interesting observation that a large fraction of image-caption pairs in web-scale datasets contain images dominated by text features.」とのこと。
  • リポジトリはGitHub – locuslab/T-MARS: Code for T-MARS data filtering

LongNet

  • LongNet: Scaling Transformers to 1,000,000,000 Tokens [114.8]
    LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。 我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 17:59:38 GMT)
  • 1Bトークンが扱える構造の提案。Dilated Attention によって計算量を削減している。が、下流タスクでの性能が書かれていないのが残念。。。
  • プロジェクトサイトはAdvancing AGI for humanity | Foundation of AGI (thegenerality.com)