コンテンツへスキップ
- Image Fusion Transformer [75.7]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。 近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。 我々は,画像融合トランスフォーマー (IFT) を提案する。
論文 参考訳(メタデータ) (Mon, 19 Jul 2021 16:42:49 GMT)- 複数の異なるデータソースからの画像を融合(イメージフュージョン)し情報量の多い一枚の画像にするタスクにおいて、Transformerを使い優れた性能が出せたとの報告。最近よく話題になる局所的な情報と長距離で関係する情報を組み合わせられる構造となっている。
- Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.3]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。 マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。 提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (Tue, 13 Jul 2021 17:59:50 GMT)- セグメンテーションではピクセルを分類しグルーピングしていくアプローチと物体検出後にマスク領域を予測していくアプローチの2つがある。近年はピクセルベースのアプローチが良く用いられていたが、後者のアプローチを用いセマンティックセグメンテーション、パノプティックセグメンテーションで優れた性能を達成したとのこと。
- https://bowenc0221.github.io/maskformer/からコード等を確認可能。
- Direct speech-to-speech translation with discrete units [64.2]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声to音声翻訳(S2ST)モデルを提案する。 本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。 対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (Mon, 12 Jul 2021 17:40:43 GMT)- 以前紹介したNiuTransと同様に直接的な音声翻訳の提案。Transformer型アーキテクチャ、self-supervised、マルチタスクを活用などこちらも様々なテクニックを活用している。(データがあれば)end to endでこの手のシステムが作れるかもしれないとは驚き。
- Long-Short Transformer: Efficient Transformers for Language and Vision [97.3]
Long-Short Transformer, Transformer-LSは、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。 遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。 提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (Mon, 5 Jul 2021 18:00:14 GMT)- long rangeな相関、局所的な特徴の組み合わせによって性能を向上させたtransformer。言語(LRA benchmark)ではReformer, Linformer, Performer, Nyströmformerなど効率性を狙ったtransformer型モデルより高性能、言語モデル構築ではメモリ使用量が少なく高速に学習でき優れた性能。画像(imagenet)ではCvTやViLよりも本件機構を組み込んだものの方が高性能とのこと。
- The models and source code will be released soon.とのことでコード等も公開されるよう。
- DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling [102.5]
ラップ生成におけるこれまでの研究は、韻律的な歌詞に重点を置いていたが、ラップ演奏に重要なリズムビートを無視していた。 本稿では,韻とリズムの両方をモデル化可能なトランスフォーマーベースのラップ生成システムであるDeepRapperを開発する。
論文 参考訳(メタデータ) (Mon, 5 Jul 2021 09:01:46 GMT)- Deep Learningでラップ生成、DeepRapperという面白い報告。
- 単純な歌詞生成ではなく rhyme and rhythm(韻とリズム)を考慮した生成が可能とのこと。
- AutoFormer: Searching Transformers for Visual Recognition [97.6]
本稿では,視覚トランスフォーマー検索専用のワンショットアーキテクチャ検索フレームワークであるAutoFormerを提案する。 AutoFormerは、スーパーネットトレーニング中に同じレイヤ内の異なるブロックの重みを絡み合わせる。 我々は、AutoFormer-tiny/small/baseが5.7M/22.9M/53.7Mパラメータを持つImageNetで74.7%/81.7%/82.4%のtop-1精度を達成したことを示す。
論文 参考訳(メタデータ) (Thu, 1 Jul 2021 17:59:30 GMT)- 画像を対象としたTransformerで効率的なアーキテクチャサーチを行うという論文。少ないパラメータで優れた性能を出せる。
- コード等はhttps://github.com/microsoft/automlから参照可能なるとのこと。
- Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.2]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデルを提案する。 文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。 また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (Wed, 23 Jun 2021 22:24:14 GMT)- GBST( Gradient-Based Subword Tokenization module)を提案、Transformerに統合してsub word化を行わず優れた性能を出したという報告。スピードも速い。
- 英語のタスクでは以前紹介したByT5と比べても優れており、マルチリンガルな設定では性能は同等で高速とのこと。後者で性能差が縮まるという結果も興味深い。
- How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers [74.1]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。 我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。 私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (Fri, 18 Jun 2021 17:58:20 GMT)- 「We release more than 50’000 ViT models trained under diverse settings on various datasets.」と大規模なViTの検証。augmentationや regularizationの効果はデータセットの大きさによって変わる(状況によっては意味がない)など面白い結果。
- Scaling Vision Transformers [82.1]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。 我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。 このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (Tue, 8 Jun 2021 17:47:39 GMT)- 自然言語処理で効果的だった大規模化を画像で実施したもの。ImageNetでSOTAと効果があるよう。
- SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training [45.1]
タブラルデータは、機械学習の多くのハイインパクトな応用を支えている。 近年のディープラーニング手法は、一般的な技術と競合する性能を達成している。 提案手法であるSAINTは,行と列の双方に注意を向ける。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 2 Jun 2021 17:51:05 GMT)- テーブルデータに対してTransformerを用いるという論文。データセットによってはLightGBMやXGBoost、CatBoostといった勾配ブースティング系の手法よりも精度が高いとのこと。下記のTabTransformerもだが表形式データに対してもDeep Learning系のアプローチが有効な場合があるのは興味深い。Transformerが有用な構造なのか、データセットがフィットしているだけなのかは謎。
- 同論文ではMLPが有効な場合があったり、XGB, LGBで差がありすぎのように思えるデータセットがあったりする(ハイパーパラメータの問題?)ので、最終的にはいろいろ試してみる事は必要なんだろうと思う。
- TabTransformer: Tabular Data Modeling Using Contextual Embeddings [23.5]
教師付きおよび半教師付き学習のための新しい深層データモデリングアーキテクチャであるTabTransformerを提案する。 トランスフォーマー層はカテゴリの特徴の埋め込みをロバストなコンテキスト埋め込みに変換し、高い予測精度を達成する。 半教師付き環境では、データ駆動型コンテキスト埋め込みを学習するための教師なし事前学習手法を開発し、その結果、最先端の手法を平均2.1%のAUCリフトする。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 11 Dec 2020 23:31:23 GMT)