2022年1月28日 – arXiv最新論文の紹介

Whose Language Counts as High Quality?

Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection [83.4]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。フィルタの質測定が,事実性や文学的評価といった他の感性指標と一致しないことを実証する。高品質なコーパスを特権化することは言語イデオロギーを伴い,言語モデルのためのトレーニングコーパスの構築にはもっと注意が必要である,と我々は主張する。
論文参考訳（メタデータ） (Wed, 26 Jan 2022 18:46:26 GMT)
- テキストをフィルタリングし高品質化することは大規模事前学習の前処理として一般的に行われている。現状は裕福な人が書いた（立場の強い人が書いた）テキストがその実態以上に高品質と判定されており、暗黙的な不平等につながる危険があるとの指摘。
- fugumtのフィルタリングルールでもドメイン名（第二レベルドメインなど）を大きな手掛かりとしており危険性を内包している可能性が高い。鋭い指摘だと思った。
- リポジトリはGitHub – kernelmachine/quality-filter: Code for “Whose language is high quality?” paper

Table Pretraining: A Survey on Model Architectures, Pretraining Objectives, and Downstream Tasks [37.4]
テキストや画像の成功を受けて、テーブル事前学習フレームワークの急激な普及が提案されている。表の事前訓練は通常、表とテキストの合同の事前訓練の形式を取る。この調査は、異なるモデル設計の包括的なレビュー、事前学習の目的、およびテーブル事前学習のための下流タスクを提供することを目的としている。
論文参考訳（メタデータ） (Mon, 24 Jan 2022 15:22:24 GMT)
- 表やテキスト構造へのDeep Learning適用のサーベイ。table question answeringやtable type recognitionといった表を含むドメインの問題やテーブルデータへのDeep Learning適用（TabTransformerやSAINT）が対象になっている。
- この分野を概観するには良いが詳細を知るには挙げられた論文を読む必要がありそう。

WebUAV-3M: A Benchmark Unveiling the Power of Million-Scale Deep UAV Tracking [40.8]
WebUAV-3Mは100万スケールの無人航空機(UAV)追跡ベンチマークである。われわれは、インターネットから3Mフレーム以上の4,485本のビデオを集めている。 WebUAV-3Mは、公的なUAV追跡ベンチマークとしては最大である。
論文参考訳（メタデータ）参考訳（全文） (Wed, 19 Jan 2022 05:39:42 GMT)
- 大規模なUAV Tracking（無人航空機から撮影された映像を使って物体を追跡するタスク）データセット・ベンチマーク。
- リポジトリはGitHub – 983632847/WebUAV-3M: WebUAV-3M

Video Transformers: A Survey [42.3]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文参考訳（メタデータ） (Sun, 16 Jan 2022 07:31:55 GMT)
- 動画処理にもTransformerが使われていることがよくわかるサーベイ