PeCo(Perceptual Codebook)によるBERTスタイルな画像事前学習の改善

  • PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.8]
    本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。 対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。 提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
    論文  参考訳(メタデータ)   (Wed, 24 Nov 2021 18:59:58 GMT)
    • Masked Autoencoders – arXiv最新論文の紹介 (devneko.jp)のようなBERTライクな事前学習にVQ-VAEを利用、視覚情報(画像)を離散的な情報(コードブック)に変換して扱う事で性能が向上したとの報告。
      • 見た物体に名前を付けていくことで学習を進めていく生物のような機構だなーと感じて面白さと気持ち悪さを感じる。
    • リポジトリはGitHub – microsoft/PeCo

PhysFormer: RPPG(Remote Photoplethysmography/顔動画からの生体情報取得)で有効なモデル

  • PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer [55.9]
    近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。 本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
    論文  参考訳(メタデータ)   (Tue, 23 Nov 2021 18:57:11 GMT)

CaPE(Calibrated Probability Estimation): Deep Learningモデルと確率推定

  • Deep Probability Estimation [14.7]
    深層ニューラルネットワークを用いた高次元データからの確率推定について検討する。 この研究の目的は、ディープニューラルネットワークを用いた高次元データからの確率推定を調査することである。 合成データおよび実世界の3つの確率推定タスクにおける既存手法の評価を行った。
    論文  参考訳(メタデータ)   (Sun, 21 Nov 2021 03:55:50 GMT)
    • (Deep Learningに限らず)通常はモデル出力は確率として使うことはできない。キャリブレーションする方法は様々提案されているが、ここでは学習時のloss関数を変更することで有望な結果を得ているとのこと。