2021年12月14日 – arXiv最新論文の紹介

Extending the WILDS Benchmark for Unsupervised Adaptation [186.9]
機械学習システムはしばしば異なるターゲットディストリビューションにデプロイされる。 WILDSの分散シフトベンチマークの10データセットのうち8データセットを拡張して,デプロイ時に現実的に取得可能な未ラベルデータを含むようにする。一貫性を維持するため、ラベル付きトレーニング、検証、テストセット、評価メトリクスは、オリジナルのWILDSベンチマークとまったく同じである。これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
論文参考訳（メタデータ） (Thu, 9 Dec 2021 18:32:38 GMT)
- WILDSベンチマークの拡張版の提案。未ラベルデータを含むことでドメイン適合を行った場合のベンチマークが可能に。
- プロジェクトサイトはWILDS (stanford.edu)

NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation [92.0]
提案するNL-Augmenterは,Pythonベースの自然言語拡張フレームワークである。このフレームワークと117の変換と23のフィルタを、さまざまな自然言語タスクに対して記述する。我々は,NL-Augmenterの有効性を,NL-Augmenterの変換を用いて検証し,自然言語モデルのロバスト性を解析した。
論文参考訳（メタデータ） (Mon, 6 Dec 2021 00:37:59 GMT)
- 自然言語処理分野で使えるデータ拡張フレームワークの提案。オープンに手法を提案してもらい採用しているとのことで、使用可能な手法が多い。そのためか論文の共著者も多く所属機関も多様。
- リポジトリはGitHub – GEM-benchmark/NL-Augmenter: NL-Augmenter 🦎 → 🐍 A Collaborative Repository of Natural Language Transformations

日: 2021年12月14日