2022年4月 – ページ 5 – arXiv最新論文の紹介

ブラックボックスモデルの頑健性向上

How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective [74.5]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法? 我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,一階法(FO)認定防衛技術である denoized smoothing (DS) のレンズを用いて設計する。我々は,Zeroth-Order AutoEncoder-based Denoised Smoothingが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文参考訳（メタデータ） (Sun, 27 Mar 2022 03:23:32 GMT)
- ブラックボックスモデルに対して頑健性を向上させるという論文。とても実用的な設定ではあるが本当にできるのか？という思いもある。
- リポジトリはGitHub – damon-demon/Black-Box-Defense: Robustify Black-Box Models (ICLR’22 – Spotlight)

Deep Active Learningのサーベイ

A Comparative Survey of Deep Active Learning [76.0]
Active Learning (AL)は、ラベル付けのための大きなラベル付けされていないデータプールからデータサンプルを順次選択することで、ラベル付けコストを削減するための一連のテクニックである。ディープラーニング(DL)はデータハングリーであり、DLモデルのパフォーマンスは、より多くのトレーニングデータとともに単調にスケールする。近年、Deep Active Learning (DAL) は、高価なラベリングコストを最小化しつつ、モデル性能を最大化するための実現可能なソリューションとして上昇している。
論文参考訳（メタデータ） (Fri, 25 Mar 2022 05:17:24 GMT)
- Active Learningの現状を知るために良い資料。VQAでは上手くいっていないのは意外だった。特定タスク、特定ドメインでは有効そうという感じで社会実装上は重要な技術のようには思う。
- 利用ソフトウェアにGitHub – ej0cl6/deep-active-learning: Deep Active Learningが挙がっており、拡張バージョンも公開予定とのこと。

Test-time Adaptation for Automatic Speech Recognition

Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.8]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文参考訳（メタデータ） (Sun, 27 Mar 2022 06:38:39 GMT)
- ASRの共変量シフトに対してTest-Time Adaptation を適用した報告。1回の発話に対してadaptationを行っているのが興味深い
- リポジトリはGitHub – DanielLin94144/Test-time-adaptation-ASR-SUTA

マルチモーダル& Graph Attentionによる文書理解

Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 25 Mar 2022 09:27:50 GMT)
- ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。

KELIP: 大規模バイリンガル・マルチモーダルモデル（韓国語/英語）

Large-scale Bilingual Language-Image Contrastive Learning [17.2]
我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文参考訳（メタデータ） (Mon, 28 Mar 2022 03:02:03 GMT)
- 大規模なバイリンガル・マルチモーダルモデル。
- 英語とのバイリンガルモデルは日本語に対しても重要だと思っていて検証結果が面白かった。「bilingual KELIP can capture different characteristics of each cultural vision information for the same meaning of words but different languages」は非常に面白い性質。
  - KELIP = Korean and English bilingual contrastive Language-Image Pre-training？
- リポジトリはGitHub – navervision/KELIP: Official PyTorch implementation of “Large-scale Bilingual Language-Image Contrastive Learning” (ICLRW 2022)　デモはKELIP – a Hugging Face Space by navervision

CodeGen: 対話によるプログラム自動生成

A Conversational Paradigm for Program Synthesis [110.9]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文参考訳（メタデータ） (Mon, 28 Mar 2022 17:10:30 GMT)
- 対話によるコード自動生成。リポジトリのビデオを見るのが分かりやすいが、非常に未来を感じるデモになっている。
- リポジトリはGitHub – salesforce/CodeGen: CodeGen is an open-source model for program synthesis. Trained on TPU-v4. Competitive with OpenAI Codex.

Chinchilla: 予算内で最適な巨大言語モデル

Training Compute-Optimal Large Language Models [54.0]
私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
論文参考訳（メタデータ） (Tue, 29 Mar 2022 13:38:03 GMT)
- 同じ計算予算で最適なパラメータ量や学習データ量を求める手法を用いて70BパラメータのChincillaを作成、Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), Megatron-Turing NLG (530B)といった他の巨大モデルを上回る結果を達成。
- 「Gopher is substantially over-sized and estimate that for the same compute budget a smaller model trained on more data will perform better.」という指摘が興味深く、モデルサイズに比べてデータが足りていない状況が多発していそう。

M-SENA: マルチモーダルな感情分析プラットフォーム

M-SENA: An Integrated Platform for Multimodal Sentiment Analysis [15.2]
M-SENAはMultimodal Sentiment Analysisのオープンソースプラットフォームである。データ管理、特徴抽出、モデルトレーニング、結果分析モジュールで構成される、完全にモジュール化されたビデオ感情分析フレームワークを備えている。
論文参考訳（メタデータ） (Wed, 23 Mar 2022 14:28:08 GMT)
- All-in-One Platform for Multimodal Sentiment Analysisとのこと。ライセンスはGPL-3.0
- リポジトリはGitHub – thuiar/M-SENA: M-SENA: All-in-One Platform for Multimodal Sentiment Analysis

PiDAn:バックドア攻撃の検出手法

PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection and Mitigation in Deep Neural Networks [22.9]
バックドア攻撃はディープニューラルネットワーク(DNN)に新たな脅威をもたらす汚染されたデータを浄化するコヒーレンス最適化に基づくアルゴリズムであるPiDAnを提案する。当社のPiDAnアルゴリズムは90%以上の感染クラスを検出でき、95%の有毒サンプルを識別できる。
論文参考訳（メタデータ） (Thu, 17 Mar 2022 12:37:21 GMT)
- バックドア攻撃に対して本物のデータと有害な（有毒な）データを見分ける手法の提案。GTSRB、ILSVRC2012データセットで有効性を検証とのこと。

2022年4月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30