PhysFormer: RPPG(Remote Photoplethysmography/顔動画からの生体情報取得)で有効なモデル

  • PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer [55.9]
    近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。 本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
    論文  参考訳(メタデータ)   (Tue, 23 Nov 2021 18:57:11 GMT)

CaPE(Calibrated Probability Estimation): Deep Learningモデルと確率推定

  • Deep Probability Estimation [14.7]
    深層ニューラルネットワークを用いた高次元データからの確率推定について検討する。 この研究の目的は、ディープニューラルネットワークを用いた高次元データからの確率推定を調査することである。 合成データおよび実世界の3つの確率推定タスクにおける既存手法の評価を行った。
    論文  参考訳(メタデータ)   (Sun, 21 Nov 2021 03:55:50 GMT)
    • (Deep Learningに限らず)通常はモデル出力は確率として使うことはできない。キャリブレーションする方法は様々提案されているが、ここでは学習時のloss関数を変更することで有望な結果を得ているとのこと。

敵対的攻撃と防御のサーベイ

  • A Review of Adversarial Attack and Defense for Classification Methods [78.5]
    本稿では,敵対的事例の生成と保護に焦点をあてる。 この論文は、多くの統計学者が、この重要かつエキサイティングな分野において、敵の事例を生成・防御することを奨励するものである。
    論文  参考訳(メタデータ)   (Thu, 18 Nov 2021 22:13:43 GMT)
    • ディープ系モデルに対する敵対的攻撃とその防御に関するサーベイ、数式多めだが分かりやすい。
    • リポジトリはGitHub – liyao880/revew_adv_defense

LAnoBERT: BERTを用いたシステムログからの異常検知

  • LAnoBERT : System Log Anomaly Detection based on BERT Masked Language Model [2.0]
    システムログ異常検出の目的は、人間の介入を最小限に抑えながら、即座に異常を識別することである。 従来の研究では、様々なログデータを標準化されたテンプレートに変換した後、アルゴリズムによる異常検出が行われた。 本研究では,BERTモデルを用いた自由システムログ異常検出手法であるLAnoBERTを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 18 Nov 2021 07:46:35 GMT)
    • BERTを用いたログからの異常検知で、ログパーサに依存せずに教師無しで優れた性能を達成とのこと。ログパーサ無しで性能を発揮できるのは面白い。

Florence: Computer Visionの基礎モデル

  • Florence: A New Foundation Model for Computer Vision [97.3]
    多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フィレンツェモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
    論文  参考訳(メタデータ)   (Mon, 22 Nov 2021 18:59:55 GMT)
    • 画像分野における基礎モデルとしてSpace-Time-Modality方向において有効であり、zero/few-shot/fine-tuningの何れも動作するものを構築。多くのベンチマークでSoTAを達成。VQA v2で80を超えたのは初めてでは?と思う。
      • Space: シーン認識 → 細かいオブジェクトの認識やセグメンテーションなど
      • Time: 静的な画像 → ダイナミックな動作の認識やオブジェクトトラッキングなど
      • Modality: RGB only → 深度の利用やキャプショニングなどマルチモーダルな方向
    • FLD-900M(FLorenceDataset-900M)という9億の画像-テキストペアのデータセット、FLOD-9M (FLorence Object detection Dataset-9M)という9Mイメージ、25Kカテゴリ、33M BBOXのデータセットなど利用しているデータも大規模。
    • A holistic representation toward integrative AI – Microsoft Researchに向けた第一歩とのことで今後も期待大。

ExT5: Extremeなマルチタスクでの事前学習モデル

  • ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning [56.5]
    本稿では,多様なドメインやタスクファミリにまたがる107個の教師付きNLPタスクの大規模なコレクションであるExMixを紹介する。 ExMixを用いて,これまでで最大規模のマルチタスク事前学習の効果を調べた。 本稿では,ExMix の自己教師型スパンのマルチタスク目標を用いた事前学習モデル ExT5 を提案する。
    論文  参考訳(メタデータ)   (Mon, 22 Nov 2021 02:34:46 GMT)
    • C4と107個のNLPタスク(ExMix)を用いて構築したT5アーキテクチャの事前学習モデルExT5の提案。事前学習のおけるマルチタスクは下流タスクの性能向上に効果がある場合があり、ExT5はT5に比べ優れているとのこと。
      • SuperGLUEはSoTAに見えるがどうなんだろう?

SLUE(Spoken Language Understanding Evaluation): 音声言語理解のためのベンチマーク

  • SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
    音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。 本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。 本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 18:59:23 GMT)
    • 音声を用いたASR(Automatic Speech Recognition)、NER(Named Entity Recognition)、SA(Sentiment Analysis)タスクのベンチマーク。
    • プロジェクトサイトはGitHub – asappresearch/slue-toolkit

UFO(UniFied TransfOrmer):画像/言語で単一/マルチモーダル対応のTransformer

  • UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
    視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。 既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 03:23:10 GMT)
    • 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。

アナログ時計を読み取るモデル

  • It’s About Time: Analog Clock Reading in the Wild [93.8]
    自然画像やビデオでアナログクロックを読むためのフレームワークを提案する。 我々は、合成クロックを生成するためのスケーラブルなパイプラインを作成し、労働集約アノテーションの要求を大幅に削減する。 提案した合成データセットに基づいてトレーニングしたモデルは、精度良く実時計に向けて一般化されていることを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 17 Nov 2021 14:52:02 GMT)
    • 合成データを活用&時計の識別→歪みの補正→時計の読み取りというパイプライン&パイプライン内はTransformer等も活用、と最近流行な手法を取り入れているのが興味深い。画像から何かを読み取るモデルを構築する際に参考になりそう。
      • 伝統的な画像処理では対応できないのだろうかと思いつつも、単純そうに見えるタスクが難しいことも多い。本件もそんな感じなのかなと思う。

RAVEN: モデルは新たに文書を作っているのか、学習データをコピーしているのか

  • How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.8]
    現在の言語モデルは高品質なテキストを生成することができる。 彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
    論文  参考訳(メタデータ)   (Thu, 18 Nov 2021 04:07:09 GMT)
    • 新規に出てきたn-gramに注目しテキストの新規性を評価する手法RAVENを開発。言語モデルが生成したテキストは学習データのコピーではないか?という疑問は昔から持っていて興味深い内容。局所的な構造では新規性が低め、全体的な構造では新規性が高め、GPT-2を対象とした解析では意味的問題が散見されたとのこと。
      • 非常に長い文を複製する(例外的な)事象がみられたとあり、この印象がコピーを行っている疑念につながっているのではないかと思う。
    • コード等は公開予定とのこと。