arXiv – ページ 179 – arXiv最新論文の紹介

Parti: Pathways Autoregressive Text-to-Image

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (Wed, 22 Jun 2022 01:11:29 GMT)
- DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
- プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
  - 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。（とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…）

Deep Clusteringのサーベイ

A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions [49.0]
クラスタリングは、文献で広く研究されている基本的な機械学習タスクである。ディープクラスタリング(Deep Clustering)、すなわち表現学習とクラスタリングを共同で最適化する手法が提案され、コミュニティで注目を集めている。深層クラスタリングの本質的なコンポーネントを要約し、深層クラスタリングと深層クラスタリングの相互作用を設計する方法によって既存の手法を分類する。
論文参考訳（メタデータ） (Wed, 15 Jun 2022 15:05:13 GMT)
- ありそうであまり見ない気がするDeep Clusteringのサーベイ。引用数246と大規模。

Data Augmentationのサーベイ

A Survey of Automated Data Augmentation Algorithms for Deep Learning-based Image Classication Tasks [21.6]
データ駆動技術であるディープモデルは、大量の正確なラベル付きトレーニングデータを必要とします。 Data Augmentation (DA)は、オリジナルのサンプルから新しいイメージを人工的に生成することができる。データ拡張戦略はデータセットによって異なり、さまざまなデータ型がモデルのトレーニングを容易にするために異なる拡張を必要とする可能性がある。 AutoDAモデルの目的は、モデルの性能向上を最大化できる最適なDAポリシーを見つけることである。
論文参考訳（メタデータ） (Tue, 14 Jun 2022 01:40:09 GMT)
- データ拡張に関するサーベイ。
  - AutoMLのようなAutomated Data Augmentationという研究分野があるらしく参考になる。

GLIPv2: Grounded Language-Image Pre-training version 2

GLIPv2: Unifying Localization and Vision-Language Understanding [161.2]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。 GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 20:31:28 GMT)
- GLIP(Grounded Language-Image Pre-training): 言語-画像の事前学習モデル – arXiv最新論文の紹介 (devneko.jp)のver2
- GLIP-Lよりも高性能化しており、Flickr30KでSoTAなど高いパフォーマンス。
- GitHub – microsoft/GLIP: Grounded Language-Image Pre-training

Learning Imbalanced Datasets with Maximum Margin Loss

Learning Imbalanced Datasets with Maximum Margin Loss [21.3]
クラス不均衡データ学習問題を考慮した学習アルゴリズムとして,最大マージン(MM)を提案する。我々は、シフトする決定境界を通して有界なマージン一般化を最小化することで、新しい最大マージン損失関数を設計する。
論文参考訳（メタデータ） (Sat, 11 Jun 2022 00:21:41 GMT)
- 不均衡データへ対応可能な損失関数の提案。
- リポジトリはGitHub – ihaeyong/Maximum-Margin-LDAM: Learning Imbalanced Datasets With Maximum Margin Losss

YiTrans End-to-End Speech Translation System

The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task [90.2]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。 YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 16:13:01 GMT)
- E2Eのスピーチ翻訳、昨年に比べて +5.2 BLEU と進化が速い。
- リポジトリはGitHub – microsoft/SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing

TwiBot-22: Twitterボット検出用ベンチマーク

TwiBot-22: Towards Graph-Based Twitter Bot Detection [39.4]
TwiBot-22はグラフベースのTwitterボット検出ベンチマークで、これまでで最大のデータセットを示している。 35の代表的なTwitterボット検出ベースラインを再実装し、TwiBot-22を含む9つのデータセットで評価します。さらなる研究を容易にするため、実装済みのコードとデータセットをTwiBot-22評価フレームワークに統合する。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 09:05:30 GMT)
- 大規模なTwitterボット検出用データセット・ベンチマーク。マルチモーダルの利用も可能とのこと。
- リポジトリはTwiBot-22: Towards Graph-Based Twitter Bot Detection (twibot22.github.io)

MLP-3D

MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.4]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。結果は、最先端の3D CNNやビデオトランスフォーマーに匹敵する。
論文参考訳（メタデータ） (Mon, 13 Jun 2022 16:21:33 GMT)
- 動画に対する処理でもMLPがCNNやtransformerに匹敵とのこと。2次元画像でも繰り広げられた話題であるが、結局どこがポイントになっとるんだろうか。
- リポジトリはGitHub – ZhaofanQiu/MLP-3D: PyTorch implementation of CVPR2022 paper MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing.

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation [152.6]
ShiFTは、自動運転のための最大規模のマルチタスク合成データセットである。曇り、雨と霧の強さ、昼の時間、車と歩行者の密度を個別に連続的に変化させる。私たちのデータセットとベンチマークツールキットはwww.vis.xyz/shift.comで公開されています。
論文参考訳（メタデータ） (Thu, 16 Jun 2022 17:59:52 GMT)
- 自動運転のための大規模合成データセット。気象条件、時刻、車両・歩行者の密度、カメラの向きといった変化に対応できるか検証可能な構成となっている。合成データではあるが、ドメイン間の性能差異は実環境のデータセットと同様であるとのこと。
- プロジェクトサイトはSHIFT Dataset (vis.xyz)、ライセンスは CC BY-SA 4.0

APT-36K: 動物のポーズ推定・追跡データセット

APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking [77.9]
APT-36Kは動物のポーズ推定と追跡のための最初の大規模ベンチマークである。このビデオは、30種の動物から収集・フィルタリングされた2,400のビデオクリップと、各ビデオの15フレームで構成されており、合計で36,000フレームとなっている。我々は,(1)ドメイン内およびドメイン間移動学習環境下での単一フレームでの動物ポーズ推定,(2)未確認動物に対する種間ドメイン一般化テスト,(3)動物追跡による動物ポーズ推定の3つのモデルについて,いくつかの代表的モデルをベンチマークした。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 07:18:36 GMT)
- 動物のポーズ推定だけでなく追跡にも焦点を当てたデータセット。
- リポジトリはhttps://github.com/pandorgan/APT-36Kとのことだが、現時点では404

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30