2021年6月22日 – arXiv最新論文の紹介

BitFit(Bias-terms Fine-tuning ): BERTのごく一部のfine tuning

BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models [51.5]
我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。ファインチューニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
論文参考訳（メタデータ）参考訳（全文） (Fri, 18 Jun 2021 16:09:21 GMT)
- バイアス項とタスク固有の分類層のみ、BERTの極一部（0.1%以下）を変更対象としてもベンチマークで十分な性能を出すfine tuningが可能という報告。処理の効率化という点でも重要なものだが、この程度の変更で様々なタスクに対応できるのは直感に反しており非常に興味深い。

GEM: A General Evaluation Benchmark for Multimodal Tasks [25.8]
マルチモーダルタスクの総合評価ベンチマークとしてGEMを提案する。 GEMは、画像言語タスクのGEM-Iとビデオ言語タスクのGEM-Vからなる大規模な視覚言語ベンチマークである。我々は,多言語マルチモーダル研究の発展を目指して,データセット,コード,ベースラインモデルをリリースする。
論文参考訳（メタデータ） (Fri, 18 Jun 2021 03:14:13 GMT)
- 視覚-言語のベンチマークデータセット、多言語で構成されていることも特徴。少なめだが日本語も入っている。
- データ等は　https://github.com/microsoft/GEM　から参照可能。

RSG: A Simple but Effective Module for Learning Imbalanced Datasets [99.8]
本稿では,レアクラスのサンプル生成装置(RSG)を提案し,トレーニング中にレアクラスのサンプルを新たに生成する。 RSGは、様々な種類の畳み込みニューラルネットワークに容易に組み込むことができるため、使いやすく、非常に多用途である。 RSGを用いたIm Balanced CIFAR, ImageNet-LT, iNaturalist 2018の競争結果を得た。
論文参考訳（メタデータ） (Fri, 18 Jun 2021 01:10:27 GMT)
- 学習時にレアクラスデータを生成する方針で不均衡データへの対応。predictに影響がないのが利点でかつベンチマークではかなり良い成績。

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers [74.1]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文参考訳（メタデータ） (Fri, 18 Jun 2021 17:58:20 GMT)
- 「We release more than 50’000 ViT models trained under diverse settings on various datasets.」と大規模なViTの検証。augmentationや regularizationの効果はデータセットの大きさによって変わる（状況によっては意味がない）など面白い結果。