2021年10月14日 – arXiv最新論文の紹介

AutoML（Neural Architecture Search）に対する攻撃

On the Security Risks of AutoML [38.0]
Neural Architecture Search(NAS)は、与えられたタスクに適したモデルを自動的に検索する、新たな機械学習パラダイムである。手動で設計したモデルと比較すると、NAS生成モデルは様々な悪意ある攻撃に対して大きな脆弱性を被る傾向にある。本稿では,セル深さの増大やスキップ接続の抑制など,このような欠点を軽減するための対策の可能性について論じる。
論文参考訳（メタデータ） (Tue, 12 Oct 2021 14:04:15 GMT)
- Neural Architecture Searchによるモデルは手動で設計した手法と比較して悪意のある攻撃の影響を受けやすいとの報告。NASでは学習時の早い段階で候補のモデルを評価するため、速く収束するモデルが選ばれる傾向があり、攻撃が容易とのこと。

Document-Level Text Simplification: Dataset, Criteria and Baseline [75.6]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。 Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 11 Oct 2021 08:15:31 GMT)
- 文書を単純化（読みやすくする）タスクの提案。日本語だと（文単位ではなく）あるドキュメントを「やさしい日本語」にするタスクのイメージ。
- この研究ではシンプル英語版ウィキペディアをベースにデータセットを作成、ベースラインモデルを構築、人の評価に近い結果を示すD-SARIという新たなメトリックを提案している。
- リポジトリはhttps://github.com/RLSNLP/Document-level-text-simplificationとのことだが、現時点では404

Field Extraction from Forms with Unlabeled Data [53.9]
本研究では,未ラベルデータを用いたフォームからフィールド抽出を行う新しいフレームワークを提案する。我々は,未ラベル形式からノイズの多い擬似ラベルをマイニングするためのルールベース手法を開発した。
論文参考訳（メタデータ）参考訳（全文） (Fri, 8 Oct 2021 17:50:12 GMT)
- ルールベースの手法で疑似ラベルを付与して学習、その後transformerベースの手法でモデルを改善していくという手法でField Extractionを行うという論文。現実的な対応という感じがして参考になる。論文で指摘されているようにセンシティブな情報が含まれていることも多いのでアノテーションを行わない（行うにしても少なくて済む）手法は重要。