Strokeに注目したCCR(Chinese character recognition)

  • Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition [37.8]
    本稿では,各文字をストローク列に分解することで,ストロークに基づく手法を提案する。 我々は、予測されたストロークシーケンスを特定の文字に変換するためにマッチングベースの戦略を用いる。 提案手法は、文字をストロークに分解できる他の言語に容易に一般化できる。
    論文  参考訳(メタデータ)   (Tue, 22 Jun 2021 08:49:03 GMT)
    • 漢字をストロークに分解したうえで文字認識をする方法。zero shotでは既存手法より優れており、そうでない設定でも競争的な性能。
    • 論文中にもある通り日本語、韓国語などストロークに分解できる文字に対しては有効そう。

Regularization is all you Need

  • Regularization is all you Need: Simple Neural Nets can Excel on Tabular Data [36.1]
    タブラルデータセットは、ディープラーニングのための最後の”未完成の城”である。 Gradient Boosted Decision Treesのような従来のMLメソッドは、最近の特殊なニューラルネットワークに対してさえ、強く機能している。 13の正則化手法の最適組み合わせ/カクテルを探索し,平面多層パーセプトロン(MLP)ネットワークの正則化を提案する。
    論文  参考訳(メタデータ)   (Mon, 21 Jun 2021 15:27:43 GMT)
    • (i)高度に正則化されたプレーンなMLPが最近の最先端の専門的ニューラルネットワークアーキテクチャを著しく上回り,(ii)XGBoostのような強力なML手法よりも優れているとの報告。
    • (balanced accuracyだからか?)表の中に出てくるスコアに低すぎるっぽいものもあり要精査な印象。

SODA10M(large-Scale Object Detection benchmark for Autonomous driving): 大規模物体検出ベンチマーク

  • SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving [94.1]
    我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。 多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。 我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
    論文  参考訳(メタデータ)   (Mon, 21 Jun 2021 13:55:57 GMT)
    • 1000万枚の未ラベル画像と6つのカテゴリをラベル付けした20Kの画像からなるデータセット。多くの都市、気象条件、時間帯などが含まれていて自動運転をターゲットにしている。

BitFit(Bias-terms Fine-tuning ): BERTのごく一部のfine tuning

  • BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models [51.5]
    我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。 ファインチューニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 18 Jun 2021 16:09:21 GMT)
    • バイアス項とタスク固有の分類層のみ、BERTの極一部(0.1%以下)を変更対象としてもベンチマークで十分な性能を出すfine tuningが可能という報告。処理の効率化という点でも重要なものだが、この程度の変更で様々なタスクに対応できるのは直感に反しており非常に興味深い。

GEM(General Evaluation benchmark for Multimodal tasks):マルチモーダルなベンチマーク

  • GEM: A General Evaluation Benchmark for Multimodal Tasks [25.8]
    マルチモーダルタスクの総合評価ベンチマークとしてGEMを提案する。 GEMは、画像言語タスクのGEM-Iとビデオ言語タスクのGEM-Vからなる大規模な視覚言語ベンチマークである。 我々は,多言語マルチモーダル研究の発展を目指して,データセット,コード,ベースラインモデルをリリースする。
    論文  参考訳(メタデータ)   (Fri, 18 Jun 2021 03:14:13 GMT)
    • 視覚-言語のベンチマークデータセット、多言語で構成されていることも特徴。少なめだが日本語も入っている。
    • データ等は https://github.com/microsoft/GEM から参照可能。

RSG(Rare-class Sample Generator):不均衡データへの対応

  • RSG: A Simple but Effective Module for Learning Imbalanced Datasets [99.8]
    本稿では,レアクラスのサンプル生成装置(RSG)を提案し,トレーニング中にレアクラスのサンプルを新たに生成する。 RSGは、様々な種類の畳み込みニューラルネットワークに容易に組み込むことができるため、使いやすく、非常に多用途である。 RSGを用いたIm Balanced CIFAR, ImageNet-LT, iNaturalist 2018の競争結果を得た。
    論文  参考訳(メタデータ)   (Fri, 18 Jun 2021 01:10:27 GMT)
    • 学習時にレアクラスデータを生成する方針で不均衡データへの対応。predictに影響がないのが利点でかつベンチマークではかなり良い成績。

ViTの大規模検証

  • How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers [74.1]
    ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。 我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。 私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
    論文  参考訳(メタデータ)   (Fri, 18 Jun 2021 17:58:20 GMT)
    • 「We release more than 50’000 ViT models trained under diverse settings on various datasets.」と大規模なViTの検証。augmentationや regularizationの効果はデータセットの大きさによって変わる(状況によっては意味がない)など面白い結果。

X-FACT: マルチリンガルなファクトチェッキング用データセット

  • X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.3]
    本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。 データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
    論文  参考訳(メタデータ)   (Thu, 17 Jun 2021 05:09:54 GMT)
    • ファクトチェッキングのためのデータセット。データ数は31,189とこの手のデータにしては大きい。言語を超えてのファクトチェックは実用上とても重要である。残念ながらデータセットに日本語は含まれていないよう。
    • データやコードはhttps://github.com/utahnlp/x-factで参照可能

VAE(Visual Attributes in the Wild) 大規模アノテーション付き画像データセット

  • Learning to Predict Visual Attributes in the Wild [43.9]
    260K以上のオブジェクトインスタンスに対して,927K以上の属性アノテーションからなる大規模なウィジェット内属性予測データセットを導入する。 本稿では,低レベルCNN機能と高レベルCNN機能の両方を利用するベースモデルを含む,これらの課題に体系的に対処する手法を提案する。 これらの技術を用いることで,現状よりも3.7mAP,5.7ポイントのF1点が向上した。
    論文  参考訳(メタデータ)   (Thu, 17 Jun 2021 17:58:02 GMT)
    • 大規模な画像系データセット。VAWは現実的な属性予測だけでなく「限られたラベル」「データの不均衡」「アウトオブディストリビューションなテスト」「バイアス関連の問題」などを含むロングテールなマルチラベル予測タスクの汎用テストとしても重要なベンチマークとして機能すると考えている。とのこと。
    • http://vawdataset.com/ にデータ等が存在

IMFW(Indian Masked Faces in the Wild): マスクをした人の顔認識

  • Indian Masked Faces in the Wild Dataset [86.8]
    本研究では,ポーズ,照明,解像度,被検者の着用するマスクの多様さを特徴とする,IMFWデータセットを新たに提案する。 また,提案したIMFWデータセットにおいて,既存の顔認識モデルの性能をベンチマークした。
    論文  参考訳(メタデータ)   (Thu, 17 Jun 2021 17:23:54 GMT)
    • COVID-19で重要になったマスクをした状況での顔認識。既存の顔認識モデルだといろいろな限界があるとのこと。
    • データなどはhttp://www.iab-rubric.org/resources/imfw.htmlから参照可能。