ブラックボックスモデルの頑健性向上

  • How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective [74.5]
    入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法? 我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,一階法(FO)認定防衛技術である denoized smoothing (DS) のレンズを用いて設計する。 我々は,Zeroth-Order AutoEncoder-based Denoised Smoothingが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
    論文  参考訳(メタデータ)   (Sun, 27 Mar 2022 03:23:32 GMT)

Deep Active Learningのサーベイ

  • A Comparative Survey of Deep Active Learning [76.0]
    Active Learning (AL)は、ラベル付けのための大きなラベル付けされていないデータプールからデータサンプルを順次選択することで、ラベル付けコストを削減するための一連のテクニックである。 ディープラーニング(DL)はデータハングリーであり、DLモデルのパフォーマンスは、より多くのトレーニングデータとともに単調にスケールする。 近年、Deep Active Learning (DAL) は、高価なラベリングコストを最小化しつつ、モデル性能を最大化するための実現可能なソリューションとして上昇している。
    論文  参考訳(メタデータ)   (Fri, 25 Mar 2022 05:17:24 GMT)
    • Active Learningの現状を知るために良い資料。VQAでは上手くいっていないのは意外だった。特定タスク、特定ドメインでは有効そうという感じで社会実装上は重要な技術のようには思う。
    • 利用ソフトウェアにGitHub – ej0cl6/deep-active-learning: Deep Active Learningが挙がっており、拡張バージョンも公開予定とのこと。

Test-time Adaptation for Automatic Speech Recognition

  • Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.8]
    Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。 単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
    論文  参考訳(メタデータ)   (Sun, 27 Mar 2022 06:38:39 GMT)

マルチモーダル& Graph Attentionによる文書理解

  • Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
    GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。 テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 25 Mar 2022 09:27:50 GMT)
    • ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。

KELIP: 大規模バイリンガル・マルチモーダルモデル(韓国語/英語)

  • Large-scale Bilingual Language-Image Contrastive Learning [17.2]
    我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。 我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。 実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
    論文  参考訳(メタデータ)   (Mon, 28 Mar 2022 03:02:03 GMT)

CodeGen: 対話によるプログラム自動生成

  • A Conversational Paradigm for Program Synthesis [110.9]
    本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。 私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。 本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
    論文  参考訳(メタデータ)   (Mon, 28 Mar 2022 17:10:30 GMT)

Chinchilla: 予算内で最適な巨大言語モデル

  • Training Compute-Optimal Large Language Models [54.0]
    私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。 計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。 チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
    論文  参考訳(メタデータ)   (Tue, 29 Mar 2022 13:38:03 GMT)
    • 同じ計算予算で最適なパラメータ量や学習データ量を求める手法を用いて70BパラメータのChincillaを作成、Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), Megatron-Turing NLG (530B)といった他の巨大モデルを上回る結果を達成。
    • 「Gopher is substantially over-sized and estimate that for the same compute budget a smaller model trained on more data will perform better.」という指摘が興味深く、モデルサイズに比べてデータが足りていない状況が多発していそう。

M-SENA: マルチモーダルな感情分析プラットフォーム

  • M-SENA: An Integrated Platform for Multimodal Sentiment Analysis [15.2]
    M-SENAはMultimodal Sentiment Analysisのオープンソースプラットフォームである。 データ管理、特徴抽出、モデルトレーニング、結果分析モジュールで構成される、完全にモジュール化されたビデオ感情分析フレームワークを備えている。
    論文  参考訳(メタデータ)   (Wed, 23 Mar 2022 14:28:08 GMT)

PiDAn:バックドア攻撃の検出手法

  • PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection and Mitigation in Deep Neural Networks [22.9]
    バックドア攻撃はディープニューラルネットワーク(DNN)に新たな脅威をもたらす 汚染されたデータを浄化するコヒーレンス最適化に基づくアルゴリズムであるPiDAnを提案する。 当社のPiDAnアルゴリズムは90%以上の感染クラスを検出でき、95%の有毒サンプルを識別できる。
    論文  参考訳(メタデータ)   (Thu, 17 Mar 2022 12:37:21 GMT)
    • バックドア攻撃に対して本物のデータと有害な(有毒な)データを見分ける手法の提案。GTSRB、ILSVRC2012データセットで有効性を検証とのこと。