Parti: Pathways Autoregressive Text-to-Image

  • Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
    Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 22 Jun 2022 01:11:29 GMT)
    • DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
    • プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
      • 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。(とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…)

Deep Clusteringのサーベイ

  • A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions [49.0]
    クラスタリングは、文献で広く研究されている基本的な機械学習タスクである。 ディープクラスタリング(Deep Clustering)、すなわち表現学習とクラスタリングを共同で最適化する手法が提案され、コミュニティで注目を集めている。 深層クラスタリングの本質的なコンポーネントを要約し、深層クラスタリングと深層クラスタリングの相互作用を設計する方法によって既存の手法を分類する。
    論文  参考訳(メタデータ)   (Wed, 15 Jun 2022 15:05:13 GMT)
    • ありそうであまり見ない気がするDeep Clusteringのサーベイ。引用数246と大規模。

Data Augmentationのサーベイ

  • A Survey of Automated Data Augmentation Algorithms for Deep Learning-based Image Classication Tasks [21.6]
    データ駆動技術であるディープモデルは、大量の正確なラベル付きトレーニングデータを必要とします。 Data Augmentation (DA)は、オリジナルのサンプルから新しいイメージを人工的に生成することができる。 データ拡張戦略はデータセットによって異なり、さまざまなデータ型がモデルのトレーニングを容易にするために異なる拡張を必要とする可能性がある。 AutoDAモデルの目的は、モデルの性能向上を最大化できる最適なDAポリシーを見つけることである。
    論文  参考訳(メタデータ)   (Tue, 14 Jun 2022 01:40:09 GMT)
    • データ拡張に関するサーベイ。
      • AutoMLのようなAutomated Data Augmentationという研究分野があるらしく参考になる。

GLIPv2: Grounded Language-Image Pre-training version 2

Learning Imbalanced Datasets with Maximum Margin Loss 

YiTrans End-to-End Speech Translation System

  • The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task [90.2]
    本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。 YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。 最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
    論文  参考訳(メタデータ)   (Sun, 12 Jun 2022 16:13:01 GMT)

TwiBot-22: Twitterボット検出用ベンチマーク

  • TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.4]
    TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。 35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。 さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
    論文  参考訳(メタデータ)   (Sun, 12 Jun 2022 09:05:30 GMT)

MLP-3D

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation

  • SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation [152.6]
    ShiFTは、自動運転のための最大規模のマルチタスク合成データセットである。 曇り、雨と霧の強さ、昼の時間、車と歩行者の密度を個別に連続的に変化させる。 私たちのデータセットとベンチマークツールキットはwww.vis.xyz/shift.comで公開されています。
    論文  参考訳(メタデータ)   (Thu, 16 Jun 2022 17:59:52 GMT)
    • 自動運転のための大規模合成データセット。気象条件、時刻、車両・歩行者の密度、カメラの向きといった変化に対応できるか検証可能な構成となっている。合成データではあるが、ドメイン間の性能差異は実環境のデータセットと同様であるとのこと。
    • プロジェクトサイトはSHIFT Dataset (vis.xyz)、ライセンスは CC BY-SA 4.0

APT-36K: 動物のポーズ推定・追跡データセット

  • APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking [77.9]
    APT-36Kは動物のポーズ推定と追跡のための最初の大規模ベンチマークである。 このビデオは、30種の動物から収集・フィルタリングされた2,400のビデオクリップと、各ビデオの15フレームで構成されており、合計で36,000フレームとなっている。 我々は,(1)ドメイン内およびドメイン間移動学習環境下での単一フレームでの動物ポーズ推定,(2)未確認動物に対する種間ドメイン一般化テスト,(3)動物追跡による動物ポーズ推定の3つのモデルについて,いくつかの代表的モデルをベンチマークした。
    論文  参考訳(メタデータ)   (Sun, 12 Jun 2022 07:18:36 GMT)
    • 動物のポーズ推定だけでなく追跡にも焦点を当てたデータセット。
    • リポジトリはhttps://github.com/pandorgan/APT-36Kとのことだが、現時点では404