コンテンツへスキップ
- Detecting Backdoor Attacks Against Point Cloud Classifiers [34.1]
ポイントクラウド(PC)分類器に対する最初のBAが提案され、自律運転を含む多くの重要なアプリケーションに対する新たな脅威が生まれた。 本稿では,PC分類器がトレーニングセットにアクセスすることなく,バックドア攻撃であるかどうかを推定するリバースエンジニアリングディフェンスを提案する。 本研究の有効性を,PC用ベンチマークModeNet40データセットで実証した。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 20 Oct 2021 03:12:06 GMT)- 様々な場所で活用が進みつつあるポイントクラウド分類器へのバックドア攻撃検出。論文の指摘通り、画像分類ではよく見るがポイントクラウド分類に対する研究はあまり見ない気がする。そして画像で有効な防御方法がPoint Cloudに対して有効とは限らないというのは直感的にもその通りで重要な研究だと思う。
- RED ( reverse-engineering defense)はうまく機械翻訳できていない・・・。
- GenNI: Human-AI Collaboration for Data-Backed Text Generation [102.1]
Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。 GenNI (Generation Negotiation Interface) は、対話型ビジュアルシステムである。
論文 参考訳(メタデータ) (Tue, 19 Oct 2021 18:07:07 GMT) - データからの文章生成は注目点や重要な数値など生成時に使われるべきデータを制御する観点が重要。このような観点でビジュアルなインタラクションを通じたモデル構築ができるのは有用だと思う。デモに期待大。
- プロジェクトサイトはhttps://genni.vizhub.ai/、デモは11/21オープンとのこと。
- A Survey on Machine Learning Techniques for Source Code Analysis [14.1]
ソースコード解析に応用された機械学習の領域における現在の知識を要約することを目的としている。 そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,研究364点を同定した。
論文 参考訳(メタデータ) (Mon, 18 Oct 2021 20:13:38 GMT)- 本文39ページ、引用数369と大規模なサーベイ。
- ソフトウェアテスト、ソースコード表現、ソースコードの品質分析、プログラム合成、コード補完、リファクタリング、コード要約、脆弱性解析などソースコード分析における機械学習の利用とそのアプローチが把握できる。
- Leveraging Knowledge in Multilingual Commonsense Reasoning [25.2]
本稿では,翻訳・検索・翻訳(TRT)戦略を用いて,英語の知識ソースを活用することを提案する。 多言語コモンセンスの質問や選択に対して,知識ソースからの翻訳や検索を通じて関連する知識を収集する。 検索した知識は対象言語に翻訳され、事前訓練された多言語言語モデルに統合される。
論文 参考訳(メタデータ) (Sat, 16 Oct 2021 03:51:53 GMT)- 処理中に機械翻訳を用いるタイプのマルチリンガルな自然言語処理のアプローチ。XCSRで優れた性能とのこと。言語資源が英語に偏っているのは事実で機械翻訳モデルを用いるアプローチが強力そうなのは直感的には明らか。マルチリンガルモデルを用いるより機械翻訳を挟む方が性能が優れている事例は複数あるが、事前学習モデルの性能、機械翻訳モデルの性能など考慮すべき前提条件が多く、どのあたりがその境目になるのか興味がある。
- MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding [35.4]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。 本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。 実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (Sat, 16 Oct 2021 09:17:28 GMT)- テキストだけでなくマークアップ情報を併用して事前学習を行う言語モデルの提案。文書理解タスクで既存の強力なベースラインモデルを大幅に上回るとのこと。この手のデータは削除してしまうことも多いが情報があることは間違いない。自然な形で利用、性能向上に効果があるのは面白い。
- Unsupervised Finetuning [80.6]
ソースデータとターゲットデータを組み合わせて教師なしの微調整を行うための2つの戦略を提案する。 前者の戦略の動機は、事前訓練された表現空間を占有するために、少量のソースデータを追加することである。 後者の戦略の動機は、データ密度を高め、よりコンパクトな表現を学ぶことにある。
論文 参考訳(メタデータ) (Mon, 18 Oct 2021 17:57:05 GMT)- 教師無しのfine-tuning手法の提案、対象は画像処理。ドメイン適合と考えれば効果はありそうだが、実際にこの方針で性能が上がるのはすごい。
- Adversarial Attacks on ML Defense Models Competition [82.4]
清華大学のTSAILグループとAlibaba Securityグループがこの競争を組織した。 この競争の目的は、敵の堅牢性を評価するために、新しい攻撃アルゴリズムを動機付けることである。
論文 参考訳(メタデータ) (Fri, 15 Oct 2021 12:12:41 GMT)
- Why don’t people use character-level machine translation? [69.5]
文字レベルシステムがサブワードシステムに匹敵する証拠があるにもかかわらず、機械翻訳競争において競合する設定ではほとんど使われない。 文字レベルのMTシステムは、しばしばモチベーションが高いにもかかわらず、ドメインの堅牢性も、モルフォロジーの一般化も良くない。 一方、ソース側ノイズに対してより堅牢である傾向がある。
論文 参考訳(メタデータ) (Fri, 15 Oct 2021 16:43:31 GMT)- ニューラル機械翻訳ではサブワードベースのシステムが多く、文字ベースのシステムを使う事例が少ない理由を分析した論文。研究の進展で文字ベースのシステムでもサブワードに匹敵する性能が上がるが、計算効率が悪いという問題がある。また「匹敵する」だけでサブワードのシステムとの品質ギャップも存在する。文字ベースのシステムにあるソース側のノイズに強いという利点はこれらのギャップを埋めるのには十分でないと思う。
- Breaking Down Multilingual Machine Translation [74.2]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにも有益であることを示す。我々の LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (Fri, 15 Oct 2021 14:57:12 GMT)- マルチリンガルな学習の効果をエンコーダ、デコーダに分けて分析した論文。多言語トレーニングは「ローリソースな言語ではエンコーダとデコーダの両方にとって有益」「そうでない場合はエンコーダにとってのみ有益」とのこと。また、複数言語間のパラメータ共有状況を分析し言語クラスタの修正など改善方法を提案、効果を確認している。
- Multitask Prompted Training Enables Zero-Shot Task Generalization [70.1]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。 様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。 このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (Fri, 15 Oct 2021 17:08:57 GMT)