2021年11月 – arXiv最新論文の紹介

効果的なfine-tuningデータの選択戦略

Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.1]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文参考訳（メタデータ）参考訳（全文） (Wed, 24 Nov 2021 06:18:32 GMT)
- 近しいデータ（鳥画像分類データセットであるCUBにImageNetの鳥類を加えるなど）をfine tuningで使用すると最終性能を上げられることがある。ラベルがあればそれを利用すればよいが、ラベルがない場合は対象データに近いデータセット（サブセット）を選択する必要がある。この論文ではこの問題をunbalanced optimal transport (UOT) 問題として解く手法を提案、効果を検証している。
  - 自然言語処理な分野でも最適輸送を使った機械学習系の論文をちょくちょく見る気がする。とても興味深い。

TWEETSUMM : 対話要約データセット

TWEETSUMM — A Dialog Summarization Dataset for Customer Service [13.7]
6500人近い注釈付き要約を含む,最初の大規模,高品質,顧客ケアダイアログ要約データセットを紹介した。データは現実世界のカスタマーサポートダイアログに基づいており、抽出と抽象の両方の要約を含んでいる。また,ダイアログに特有な非教師付き抽出要約手法も導入した。
論文参考訳（メタデータ） (Tue, 23 Nov 2021 14:13:51 GMT)
- Customer Support on Twitter | Kaggleをベースに人間によって作成された抽出/抽象型両形式の要約データセット。データ量は1100対話、3056抽出型要約、3327抽象型要約。
- リポジトリはGitHub – guyfe/Tweetsumm: A dataset focused on summarization of dialogs, which represents the rich domain of Twitter customer care conversations、ライセンスはCommunity Data License Agreement – Sharing, Version 1.0 – CDLAとのこと。

PeCo(Perceptual Codebook)によるBERTスタイルな画像事前学習の改善

PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.8]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文参考訳（メタデータ） (Wed, 24 Nov 2021 18:59:58 GMT)
- Masked Autoencoders – arXiv最新論文の紹介 (devneko.jp)のようなBERTライクな事前学習にVQ-VAEを利用、視覚情報（画像）を離散的な情報（コードブック）に変換して扱う事で性能が向上したとの報告。
  - 見た物体に名前を付けていくことで学習を進めていく生物のような機構だなーと感じて面白さと気持ち悪さを感じる。
- リポジトリはGitHub – microsoft/PeCo

PhysFormer: RPPG(Remote Photoplethysmography/顔動画からの生体情報取得)で有効なモデル

PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer [55.9]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文参考訳（メタデータ） (Tue, 23 Nov 2021 18:57:11 GMT)
- 顔の動画から心拍数や呼吸頻度などの生体情報を得るためのTransformer系モデルの提案。VIPL-HRなど主要データセットで優れた性能を達成のとのこと。
- リポジトリはGitHub – ZitongYu/PhysFormer: Main codes of ‘PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer’（現時点ではComing soonになっている）

CaPE(Calibrated Probability Estimation): Deep Learningモデルと確率推定

Deep Probability Estimation [14.7]
深層ニューラルネットワークを用いた高次元データからの確率推定について検討する。この研究の目的は、ディープニューラルネットワークを用いた高次元データからの確率推定を調査することである。合成データおよび実世界の3つの確率推定タスクにおける既存手法の評価を行った。
論文参考訳（メタデータ） (Sun, 21 Nov 2021 03:55:50 GMT)
- （Deep Learningに限らず）通常はモデル出力は確率として使うことはできない。キャリブレーションする方法は様々提案されているが、ここでは学習時のloss関数を変更することで有望な結果を得ているとのこと。

敵対的攻撃と防御のサーベイ

A Review of Adversarial Attack and Defense for Classification Methods [78.5]
本稿では,敵対的事例の生成と保護に焦点をあてる。この論文は、多くの統計学者が、この重要かつエキサイティングな分野において、敵の事例を生成・防御することを奨励するものである。
論文参考訳（メタデータ） (Thu, 18 Nov 2021 22:13:43 GMT)
- ディープ系モデルに対する敵対的攻撃とその防御に関するサーベイ、数式多めだが分かりやすい。
- リポジトリはGitHub – liyao880/revew_adv_defense

LAnoBERT: BERTを用いたシステムログからの異常検知

LAnoBERT : System Log Anomaly Detection based on BERT Masked Language Model [2.0]
システムログ異常検出の目的は、人間の介入を最小限に抑えながら、即座に異常を識別することである。従来の研究では、様々なログデータを標準化されたテンプレートに変換した後、アルゴリズムによる異常検出が行われた。本研究では,BERTモデルを用いた自由システムログ異常検出手法であるLAnoBERTを提案する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 18 Nov 2021 07:46:35 GMT)
- BERTを用いたログからの異常検知で、ログパーサに依存せずに教師無しで優れた性能を達成とのこと。ログパーサ無しで性能を発揮できるのは面白い。

Florence: Computer Visionの基礎モデル

Florence: A New Foundation Model for Computer Vision [97.3]
多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フィレンツェモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (Mon, 22 Nov 2021 18:59:55 GMT)
- 画像分野における基礎モデルとしてSpace-Time-Modality方向において有効であり、zero/few-shot/fine-tuningの何れも動作するものを構築。多くのベンチマークでSoTAを達成。VQA v2で80を超えたのは初めてでは？と思う。
  - Space: シーン認識 → 細かいオブジェクトの認識やセグメンテーションなど
  - Time: 静的な画像 → ダイナミックな動作の認識やオブジェクトトラッキングなど
  - Modality: RGB only → 深度の利用やキャプショニングなどマルチモーダルな方向
- FLD-900M(FLorenceDataset-900M)という9億の画像-テキストペアのデータセット、FLOD-9M (FLorence Object detection Dataset-9M)という9Mイメージ、25Kカテゴリ、33M BBOXのデータセットなど利用しているデータも大規模。
- A holistic representation toward integrative AI – Microsoft Researchに向けた第一歩とのことで今後も期待大。

ExT5: Extremeなマルチタスクでの事前学習モデル

ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning [56.5]
本稿では,多様なドメインやタスクファミリにまたがる107個の教師付きNLPタスクの大規模なコレクションであるExMixを紹介する。 ExMixを用いて,これまでで最大規模のマルチタスク事前学習の効果を調べた。本稿では,ExMix の自己教師型スパンのマルチタスク目標を用いた事前学習モデル ExT5 を提案する。
論文参考訳（メタデータ） (Mon, 22 Nov 2021 02:34:46 GMT)
- C4と107個のNLPタスク（ExMix）を用いて構築したT5アーキテクチャの事前学習モデルExT5の提案。事前学習のおけるマルチタスクは下流タスクの性能向上に効果がある場合があり、ExT5はT5に比べ優れているとのこと。
  - SuperGLUEはSoTAに見えるがどうなんだろう？

SLUE(Spoken Language Understanding Evaluation): 音声言語理解のためのベンチマーク

SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文参考訳（メタデータ） (Fri, 19 Nov 2021 18:59:23 GMT)
- 音声を用いたASR（Automatic Speech Recognition）、NER（Named Entity Recognition）、SA（Sentiment Analysis）タスクのベンチマーク。
- プロジェクトサイトはGitHub – asappresearch/slue-toolkit

2021年11月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30