2022年4月 – arXiv最新論文の紹介

WebFace260MとWebFace42M：顔認識データセット

WebFace260M: A Benchmark for Million-Scale Deep Face Recognition [89.4]
我々は、未修正4MのID/260Mの顔(WebFace260M)とクリーン2MのID/42Mの顔(WebFace42M)を含む新しい100万スケールの認識ベンチマークに貢献する。分散フレームワークは、性能を損なうことなく、顔認識モデルを効率的に訓練するために開発された。提案したベンチマークは、標準、マスク付き、偏見のない顔認識シナリオにおいて大きな可能性を示している。
論文参考訳（メタデータ）参考訳（全文） (Thu, 21 Apr 2022 14:56:53 GMT)
- 非常に大規模な顔画像データセット。WebFace42Mの方は自動的なクリーニング済み。
- プロジェクトサイトはWebFace260M (face-benchmark.org)、商業利用は不可で研究目的のデータ。

Sequential Point Cloudのサーベイ

Sequential Point Clouds: A Survey [33.2]
本稿では,シーケンシャルポイントクラウド研究のための深層学習に基づく手法について概説する。これには、動的フロー推定、オブジェクトの検出とトラッキング、ポイントクラウドセグメンテーション、ポイントクラウド予測が含まれる。
論文参考訳（メタデータ） (Thu, 21 Apr 2022 02:10:05 GMT)
- 3Dスキャナ等で得られるポイントクラウド情報に時間的な推移を足したsequential point cloudに関するサーベイ。Deep Learningで取り扱う際のアプローチが参考になる。

Representation Learningのサーベイ

Empirical Evaluation and Theoretical Analysis for Representation Learning: A Survey [25.6]
表現学習により、データセットからジェネリックな特徴表現を自動的に抽出して、別の機械学習タスクを解決することができます。近年,表現学習アルゴリズムと単純な予測器によって抽出された特徴表現は,複数の機械学習タスクにおいて最先端の性能を示す。
論文参考訳（メタデータ） (Mon, 18 Apr 2022 09:18:47 GMT)
- Representation Learningの現状がわかるありがたいサーベイ。

LayoutLMv3

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking [83.1]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文参考訳（メタデータ） (Mon, 18 Apr 2022 16:19:52 GMT)
- マルチモーダル性を利用したLayoutLMのバージョン3。pre trainedなCNNやR-CNNバックボーンに依存していないというのにやや驚き。FUNSDでSoTAなどv2に比べて性能が向上している。
- リポジトリはunilm/layoutlmv3 at master · microsoft/unilm · GitHub

コンタミとCross Lingual性

Language Contamination Explains the Cross-lingual Capabilities of English Pretrained Models [79.4]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。これにより、大規模なデータセットで数十億の外国語トークンが生成される。そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文参考訳（メタデータ）参考訳（全文） (Sun, 17 Apr 2022 23:56:54 GMT)
- 英語で事前学習された事前学習モデルが他の言語でも有効なことがある理由をデータのコンタミによるものであると指摘した論文。
- クローリング結果の言語を統一するクレンジングは困難で妥当な内容と思う。（とはいえ＆完全否定されているわけではないが）言語間でも共通な構造みたいなものを捉えていて欲しかった気もする。

Natural Instructions v2: 自然言語で説明されたタスク

Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks [95.1]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文参考訳（メタデータ）参考訳（全文） (Sat, 16 Apr 2022 03:12:30 GMT)
- 自然言語で説明が付与されたタスク・データセット。
  - 自然言語で命令すればタスクをこなしてくれるモデルの実現が近づいている印象があり、重要なデータセットだと思う。
- Learning From Instructions (allenai.org)

SimpleBERT: テキスト簡略化のための事前学習

SimpleBERT: A Pre-trained Model That Learns to Generate Simple Words [59.1]
本研究では,テキストの簡易化を継続する事前学習手法を提案する。我々は、継続事前学習に小規模な単純なテキストデータセットを使用し、簡単な単語を識別するために2つの方法を用いる。語彙単純化タスクと文簡略化タスクの両方においてBERTを超えるSimpleBERTを得る。
論文参考訳（メタデータ）参考訳（全文） (Sat, 16 Apr 2022 11:28:01 GMT)
- 単語をランダムにマスクするのではなく、単純な単語だけをマスクする方針で事前学習をしたBERTが通常のBERTよりテキスト簡略化タスクで有効だったという報告。
- 事前学習の戦略の工夫で最終的な性能が上がるのは直感的にもそうだと思うし実用でも研究でも重要な視点。

OTExtSum(Optimal Transport Extractive Summariser): 最適輸送を利用した文書要約

OTExtSum: Extractive Text Summarisation with Optimal Transport [45.8]
テキスト要約を最適輸送(OT)問題として初めて定式化した非学習型手法を提案する。提案手法は,最先端の非学習的手法と最近の学習的手法をROUGEメートル法で比較した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 21 Apr 2022 13:25:34 GMT)
- 最適輸送によるテキスト要約。MultinewsやPubmedではUnsupervisedな手法として優れた性能。ただ、CNNDMでは十分な性能になっておらず文書の長さによるものではないかとしている。
- リポジトリはGitHub – peggypytang/OTExtSum: This code is for paper “OTExtSum: Extractive Text Summarisation with Optimal Transport”, Findings of NAACL 2022

SNP2Vec: Single Nucleotide Polymorphisms 2 Vec

SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide Association Study [48.8]
SNP2Vecは、SNPを理解するためのスケーラブルな自己教師付き事前学習手法である。本研究では,SNP2Vecを用いて時系列ゲノミクスモデリングを行う。中国コホートにおけるアルツハイマー病のリスク予測におけるアプローチの有効性について検討した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 14 Apr 2022 01:53:58 GMT)
- このような分野にも2vecシリーズが・・・

アノテーションの品質

Re-Examining Human Annotations for Interpretable NLP [80.8]
我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
論文参考訳（メタデータ）参考訳（全文） (Sun, 10 Apr 2022 02:27:30 GMT)
- アノテータによってアノテーションの品質が大きく変わるなどアノテーションに関する包括的な報告。「Surprisingly, providing example annotations does not increase the agreement among annotators.」など非常に参考になる。

2022年4月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30