Traveling Salesperson Problem + 深層強化学習

PLATON(Pruning LArge TransfOrmer with uNcertainty)

  • PLATON: Pruning Large Transformer Models with Upper Confidence Bound of Weight Importance [114.2]
    本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。 我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
    論文  参考訳(メタデータ)   (Sat, 25 Jun 2022 05:38:39 GMT)
    • 重要性と不確実性の両方を考慮しながらPruningを行う手法の提案。BERT、ViT-B16を用いて有効性を検証、既存手法を上回る性能を出したとのこと。
    • リポジトリはQingruZhang/PLATON · GitHubとのことだが、現時点ではソースなどは公開されていない。

DEMSD(Deep Encoder with Multiple Shallow Decoders )を使った多言語機械翻訳

  • Multilingual Neural Machine Translation with Deep Encoder and Multiple Shallow Decoders [77.2]
    本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。 2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
    論文  参考訳(メタデータ)   (Sun, 5 Jun 2022 01:15:04 GMT)
    • 機械翻訳では深いエンコーダと浅いデコーダの組み合わせが有効である。この論文では多対1の機械翻訳での有効性の検証、多対多機械翻訳の場合の対応を報告している。多対多機械翻訳ではデコーダ部分を複数の浅い構造とすることで翻訳性能と速度で良好な結果が出せたとのこと。

医療画像分野のTransformer利用サーベイ

  • Transforming medical imaging with Transformers? A comparative review of key properties, current progresses, and future perspectives [18.0]
    ディープラーニングの最新技術進歩であるTransformerは、自然言語処理やコンピュータビジョンで普及している。 我々は、医療画像に対する最先端のTransformerベースのアプローチを包括的にレビューする。
    論文  参考訳(メタデータ)   (Thu, 2 Jun 2022 16:38:31 GMT)
    • 医療分野の画像処理でTransformerがどのように使われているかのサーベイ。
    • 医療分野とあるが一般的な画像処理でも重要な考え方が多く参考になる。当然ながらMedical image reconstructionなどドメイン依存のタスクも興味深い。

EfficientFormer

  • EfficientFormer: Vision Transformers at MobileNet Speed [43.9]
    Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。 ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。 近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 17:51:03 GMT)
    • MobileNetV2 より高速で高性能なTransformer系モデルの提案。性能と速度のトレードオフでEfficientNetも上回っている。遅い部分の特定や高速化の設計なども参考になる。
    • EfficientFormerはパラメータ数が少ないわけではないが高速というのが面白い。実機(iPhone 12)で計測されているのも重要だと思う。
      • 「We conclude that nonlinearity should be determined on a case-by-case basis given specific hardware and compiler at hand.」ですよねー

Inception Transformer

  • Inception Transformer [151.9]
    インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。 我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
    論文  参考訳(メタデータ)   (Thu, 26 May 2022 17:18:32 GMT)
    • Transfomerは長距離の関係を捉える能力は高いがローカルの情報を捉える能力が低い。Inception TransformerはInception mixerとfrequency ramp structureを導入することでパラメータ効率を高めているとのこと。
      • Inception mixer: 複数のモジュール(高周波成分の抽出を狙ったものと低周波成分を狙ったもの)を並列につなげる構造
      • frequency ramp structure: 4ステージの中で高周波成分と低周波成分のトレードオフ(ローカルな構造を捉えるため下位層は高周波優先など)が可能な構造。
    • リポジトリはGitHub – sail-sg/iFormer: iFormer: Inception Transformer

Transformers in 3D Point Clouds: A Survey

  • Transformers in 3D Point Clouds: A Survey [27.8]
    3Dトランスフォーマーモデルは、長距離依存モデリングの驚くべき能力があることが証明されている。 本調査は,各種タスク用に設計された3Dトランスフォーマーの概要を概観することを目的としている。
    論文  参考訳(メタデータ)   (Mon, 16 May 2022 01:32:18 GMT)
    • 3D Transformerに関するサーベイ。いたるところにトランスフォーマーが採用されている。

TransTab: テーブルデータの埋め込み

  • TransTab: Learning Transferable Tabular Transformers Across Tables [42.9]
    タブラルデータ(またはテーブル)は機械学習(ML)で最も広く使われているデータ形式である 異なる列の異なるテーブルを マージするには 重いデータクリーニングが必要です TransTabは各サンプル(テーブル内の行)を一般化可能な埋め込みベクトルに変換する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 19 May 2022 05:34:46 GMT)
    • テーブルデータを埋め込み表現にすることで列が異なるテーブルにも対応可能という論文。
      • 列名を含めて扱えばできそうという感覚と、やっぱり簡単ではないのではという感覚があってやや疑念がある。XGBoostがLogistic Regressionに完全に負けているのもやや違和感。コードが公開されているのでそのうち試してみたい。
    • リポジトリはGitHub – RyanWangZf/transtab: TransTab: A flexible tabular prediction model

Gato: 汎用エージェント

  • A Generalist Agent [89.9]
    Gatoはマルチモーダル、マルチタスク、マルチエンボディメントのジェネリストポリシーである。 同じ重さのネットワークでも、Atariやキャプション画像、チャット、本物のロボットアームのスタックブロックなどをプレイできる。
    論文  参考訳(メタデータ)   (Thu, 12 May 2022 16:03:26 GMT)
    • DeepMindから発表された汎用的にタスクを解けるモデル。テキストだけでなく画像や関節のトルクといったデータもシーケンスとして扱って大規模言語モデルっぽい処理を行っている。
    • 「 Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks.」ということで改めてTransformerの強力さが分かる。

VQGAN & Transformerによるビデオ生成

  • Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.6]
    本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。 評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。 また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 7 Apr 2022 17:59:02 GMT)