Neural Knowledge Bank (NKB) :事前学習モデルにおける知識蓄積機構

  • Neural Knowledge Bank for Pretrained Transformers [20.4]
    本稿では,事前学習したトランスフォーマーに対して,現実的な知識を蓄積する神経知識銀行を提案する。 知識注入中、元のモデルを修正し、拡張メモリスロットに事実知識を注入する。 3つのクローズドブックの質問応答データセットを使用して、余分な事実知識を格納する強力な能力を示しています。
    論文  参考訳(メタデータ)   (Sun, 31 Jul 2022 09:14:34 GMT)
    • Neural Knowledge Bank (NKB) という知識格納領域をTransformer内に作っておき、事後に知識を投入できるという論文。AIモデルを一定程度事後に編集できるということで非常に画期的だと思う。

Video Graph Transformer (VGT) for Video Quetion Answering (VideoQA)

  • Video Graph Transformer for Video Question Answering [182.1]
    本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。 事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
    論文  参考訳(メタデータ)   (Tue, 12 Jul 2022 06:51:32 GMT)
    • ビデオに対するQuestion Answeringのため動画像内のオブジェクトのグラフ構造も用いたTransformerを用いているが、こんなことが可能なんだな。。。という感想。
    • リポジトリはhttps://github.com/sail-sg/VGTとのことだが、今は404

Traveling Salesperson Problem + 深層強化学習

PLATON(Pruning LArge TransfOrmer with uNcertainty)

  • PLATON: Pruning Large Transformer Models with Upper Confidence Bound of Weight Importance [114.2]
    本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。 我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
    論文  参考訳(メタデータ)   (Sat, 25 Jun 2022 05:38:39 GMT)
    • 重要性と不確実性の両方を考慮しながらPruningを行う手法の提案。BERT、ViT-B16を用いて有効性を検証、既存手法を上回る性能を出したとのこと。
    • リポジトリはQingruZhang/PLATON · GitHubとのことだが、現時点ではソースなどは公開されていない。

DEMSD(Deep Encoder with Multiple Shallow Decoders )を使った多言語機械翻訳

  • Multilingual Neural Machine Translation with Deep Encoder and Multiple Shallow Decoders [77.2]
    本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。 2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
    論文  参考訳(メタデータ)   (Sun, 5 Jun 2022 01:15:04 GMT)
    • 機械翻訳では深いエンコーダと浅いデコーダの組み合わせが有効である。この論文では多対1の機械翻訳での有効性の検証、多対多機械翻訳の場合の対応を報告している。多対多機械翻訳ではデコーダ部分を複数の浅い構造とすることで翻訳性能と速度で良好な結果が出せたとのこと。

医療画像分野のTransformer利用サーベイ

  • Transforming medical imaging with Transformers? A comparative review of key properties, current progresses, and future perspectives [18.0]
    ディープラーニングの最新技術進歩であるTransformerは、自然言語処理やコンピュータビジョンで普及している。 我々は、医療画像に対する最先端のTransformerベースのアプローチを包括的にレビューする。
    論文  参考訳(メタデータ)   (Thu, 2 Jun 2022 16:38:31 GMT)
    • 医療分野の画像処理でTransformerがどのように使われているかのサーベイ。
    • 医療分野とあるが一般的な画像処理でも重要な考え方が多く参考になる。当然ながらMedical image reconstructionなどドメイン依存のタスクも興味深い。

EfficientFormer

  • EfficientFormer: Vision Transformers at MobileNet Speed [43.9]
    Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。 ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。 近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 17:51:03 GMT)
    • MobileNetV2 より高速で高性能なTransformer系モデルの提案。性能と速度のトレードオフでEfficientNetも上回っている。遅い部分の特定や高速化の設計なども参考になる。
    • EfficientFormerはパラメータ数が少ないわけではないが高速というのが面白い。実機(iPhone 12)で計測されているのも重要だと思う。
      • 「We conclude that nonlinearity should be determined on a case-by-case basis given specific hardware and compiler at hand.」ですよねー

Inception Transformer

  • Inception Transformer [151.9]
    インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。 我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
    論文  参考訳(メタデータ)   (Thu, 26 May 2022 17:18:32 GMT)
    • Transfomerは長距離の関係を捉える能力は高いがローカルの情報を捉える能力が低い。Inception TransformerはInception mixerとfrequency ramp structureを導入することでパラメータ効率を高めているとのこと。
      • Inception mixer: 複数のモジュール(高周波成分の抽出を狙ったものと低周波成分を狙ったもの)を並列につなげる構造
      • frequency ramp structure: 4ステージの中で高周波成分と低周波成分のトレードオフ(ローカルな構造を捉えるため下位層は高周波優先など)が可能な構造。
    • リポジトリはGitHub – sail-sg/iFormer: iFormer: Inception Transformer

Transformers in 3D Point Clouds: A Survey

  • Transformers in 3D Point Clouds: A Survey [27.8]
    3Dトランスフォーマーモデルは、長距離依存モデリングの驚くべき能力があることが証明されている。 本調査は,各種タスク用に設計された3Dトランスフォーマーの概要を概観することを目的としている。
    論文  参考訳(メタデータ)   (Mon, 16 May 2022 01:32:18 GMT)
    • 3D Transformerに関するサーベイ。いたるところにトランスフォーマーが採用されている。

TransTab: テーブルデータの埋め込み

  • TransTab: Learning Transferable Tabular Transformers Across Tables [42.9]
    タブラルデータ(またはテーブル)は機械学習(ML)で最も広く使われているデータ形式である 異なる列の異なるテーブルを マージするには 重いデータクリーニングが必要です TransTabは各サンプル(テーブル内の行)を一般化可能な埋め込みベクトルに変換する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 19 May 2022 05:34:46 GMT)
    • テーブルデータを埋め込み表現にすることで列が異なるテーブルにも対応可能という論文。
      • 列名を含めて扱えばできそうという感覚と、やっぱり簡単ではないのではという感覚があってやや疑念がある。XGBoostがLogistic Regressionに完全に負けているのもやや違和感。コードが公開されているのでそのうち試してみたい。
    • リポジトリはGitHub – RyanWangZf/transtab: TransTab: A flexible tabular prediction model