コンテンツへスキップ
- Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.1]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。 近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。 本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 24 Nov 2021 06:18:32 GMT)- 近しいデータ(鳥画像分類データセットであるCUBにImageNetの鳥類を加えるなど)をfine tuningで使用すると最終性能を上げられることがある。ラベルがあればそれを利用すればよいが、ラベルがない場合は対象データに近いデータセット(サブセット)を選択する必要がある。この論文ではこの問題をunbalanced optimal transport (UOT) 問題として解く手法を提案、効果を検証している。
- 自然言語処理な分野でも最適輸送を使った機械学習系の論文をちょくちょく見る気がする。とても興味深い。
- TWEETSUMM — A Dialog Summarization Dataset for Customer Service [13.7]
6500人近い注釈付き要約を含む,最初の大規模,高品質,顧客ケアダイアログ要約データセットを紹介した。 データは現実世界のカスタマーサポートダイアログに基づいており、抽出と抽象の両方の要約を含んでいる。 また,ダイアログに特有な非教師付き抽出要約手法も導入した。
論文 参考訳(メタデータ) (Tue, 23 Nov 2021 14:13:51 GMT)
- PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.8]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。 対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。 提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文 参考訳(メタデータ) (Wed, 24 Nov 2021 18:59:58 GMT)
- PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer [55.9]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。 本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (Tue, 23 Nov 2021 18:57:11 GMT)
- Deep Probability Estimation [14.7]
深層ニューラルネットワークを用いた高次元データからの確率推定について検討する。 この研究の目的は、ディープニューラルネットワークを用いた高次元データからの確率推定を調査することである。 合成データおよび実世界の3つの確率推定タスクにおける既存手法の評価を行った。
論文 参考訳(メタデータ) (Sun, 21 Nov 2021 03:55:50 GMT)- (Deep Learningに限らず)通常はモデル出力は確率として使うことはできない。キャリブレーションする方法は様々提案されているが、ここでは学習時のloss関数を変更することで有望な結果を得ているとのこと。
- A Review of Adversarial Attack and Defense for Classification Methods [78.5]
本稿では,敵対的事例の生成と保護に焦点をあてる。 この論文は、多くの統計学者が、この重要かつエキサイティングな分野において、敵の事例を生成・防御することを奨励するものである。
論文 参考訳(メタデータ) (Thu, 18 Nov 2021 22:13:43 GMT)
- LAnoBERT : System Log Anomaly Detection based on BERT Masked Language Model [2.0]
システムログ異常検出の目的は、人間の介入を最小限に抑えながら、即座に異常を識別することである。 従来の研究では、様々なログデータを標準化されたテンプレートに変換した後、アルゴリズムによる異常検出が行われた。 本研究では,BERTモデルを用いた自由システムログ異常検出手法であるLAnoBERTを提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 18 Nov 2021 07:46:35 GMT)- BERTを用いたログからの異常検知で、ログパーサに依存せずに教師無しで優れた性能を達成とのこと。ログパーサ無しで性能を発揮できるのは面白い。
- Florence: A New Foundation Model for Computer Vision [97.3]
多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フィレンツェモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (Mon, 22 Nov 2021 18:59:55 GMT)- 画像分野における基礎モデルとしてSpace-Time-Modality方向において有効であり、zero/few-shot/fine-tuningの何れも動作するものを構築。多くのベンチマークでSoTAを達成。VQA v2で80を超えたのは初めてでは?と思う。
- Space: シーン認識 → 細かいオブジェクトの認識やセグメンテーションなど
- Time: 静的な画像 → ダイナミックな動作の認識やオブジェクトトラッキングなど
- Modality: RGB only → 深度の利用やキャプショニングなどマルチモーダルな方向
- FLD-900M(FLorenceDataset-900M)という9億の画像-テキストペアのデータセット、FLOD-9M (FLorence Object detection Dataset-9M)という9Mイメージ、25Kカテゴリ、33M BBOXのデータセットなど利用しているデータも大規模。
- A holistic representation toward integrative AI – Microsoft Researchに向けた第一歩とのことで今後も期待大。
- ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning [56.5]
本稿では,多様なドメインやタスクファミリにまたがる107個の教師付きNLPタスクの大規模なコレクションであるExMixを紹介する。 ExMixを用いて,これまでで最大規模のマルチタスク事前学習の効果を調べた。 本稿では,ExMix の自己教師型スパンのマルチタスク目標を用いた事前学習モデル ExT5 を提案する。
論文 参考訳(メタデータ) (Mon, 22 Nov 2021 02:34:46 GMT)- C4と107個のNLPタスク(ExMix)を用いて構築したT5アーキテクチャの事前学習モデルExT5の提案。事前学習のおけるマルチタスクは下流タスクの性能向上に効果がある場合があり、ExT5はT5に比べ優れているとのこと。
- SuperGLUEはSoTAに見えるがどうなんだろう?
- SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。 本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。 本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (Fri, 19 Nov 2021 18:59:23 GMT)