arXiv – ページ 193 – arXiv最新論文の紹介

Deep Active Learningのサーベイ

A Comparative Survey of Deep Active Learning [76.0]
Active Learning (AL)は、ラベル付けのための大きなラベル付けされていないデータプールからデータサンプルを順次選択することで、ラベル付けコストを削減するための一連のテクニックである。ディープラーニング(DL)はデータハングリーであり、DLモデルのパフォーマンスは、より多くのトレーニングデータとともに単調にスケールする。近年、Deep Active Learning (DAL) は、高価なラベリングコストを最小化しつつ、モデル性能を最大化するための実現可能なソリューションとして上昇している。
論文参考訳（メタデータ） (Fri, 25 Mar 2022 05:17:24 GMT)
- Active Learningの現状を知るために良い資料。VQAでは上手くいっていないのは意外だった。特定タスク、特定ドメインでは有効そうという感じで社会実装上は重要な技術のようには思う。
- 利用ソフトウェアにGitHub – ej0cl6/deep-active-learning: Deep Active Learningが挙がっており、拡張バージョンも公開予定とのこと。

Test-time Adaptation for Automatic Speech Recognition

Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.8]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文参考訳（メタデータ） (Sun, 27 Mar 2022 06:38:39 GMT)
- ASRの共変量シフトに対してTest-Time Adaptation を適用した報告。1回の発話に対してadaptationを行っているのが興味深い
- リポジトリはGitHub – DanielLin94144/Test-time-adaptation-ASR-SUTA

マルチモーダル& Graph Attentionによる文書理解

Multimodal Pre-training Based on Graph Attention Network for Document Understanding [32.6]
GraphDocは、さまざまなドキュメント理解タスクのためのグラフベースのモデルである。テキスト、レイアウト、画像情報を同時に活用することにより、マルチモーダルフレームワークで事前訓練される。 320万の未ラベル文書から一般的な表現を学習する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 25 Mar 2022 09:27:50 GMT)
- ドキュメントレイアウトの認識でテキスト・画像・レイアウトなどマルチモーダルなデータを利用、UniDocやSelf-Doc以上の性能を達成とのこと。

KELIP: 大規模バイリンガル・マルチモーダルモデル（韓国語/英語）

Large-scale Bilingual Language-Image Contrastive Learning [17.2]
我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文参考訳（メタデータ） (Mon, 28 Mar 2022 03:02:03 GMT)
- 大規模なバイリンガル・マルチモーダルモデル。
- 英語とのバイリンガルモデルは日本語に対しても重要だと思っていて検証結果が面白かった。「bilingual KELIP can capture different characteristics of each cultural vision information for the same meaning of words but different languages」は非常に面白い性質。
  - KELIP = Korean and English bilingual contrastive Language-Image Pre-training？
- リポジトリはGitHub – navervision/KELIP: Official PyTorch implementation of “Large-scale Bilingual Language-Image Contrastive Learning” (ICLRW 2022)　デモはKELIP – a Hugging Face Space by navervision

CodeGen: 対話によるプログラム自動生成

A Conversational Paradigm for Program Synthesis [110.9]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文参考訳（メタデータ） (Mon, 28 Mar 2022 17:10:30 GMT)
- 対話によるコード自動生成。リポジトリのビデオを見るのが分かりやすいが、非常に未来を感じるデモになっている。
- リポジトリはGitHub – salesforce/CodeGen: CodeGen is an open-source model for program synthesis. Trained on TPU-v4. Competitive with OpenAI Codex.

Chinchilla: 予算内で最適な巨大言語モデル

Training Compute-Optimal Large Language Models [54.0]
私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
論文参考訳（メタデータ） (Tue, 29 Mar 2022 13:38:03 GMT)
- 同じ計算予算で最適なパラメータ量や学習データ量を求める手法を用いて70BパラメータのChincillaを作成、Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), Megatron-Turing NLG (530B)といった他の巨大モデルを上回る結果を達成。
- 「Gopher is substantially over-sized and estimate that for the same compute budget a smaller model trained on more data will perform better.」という指摘が興味深く、モデルサイズに比べてデータが足りていない状況が多発していそう。

M-SENA: マルチモーダルな感情分析プラットフォーム

M-SENA: An Integrated Platform for Multimodal Sentiment Analysis [15.2]
M-SENAはMultimodal Sentiment Analysisのオープンソースプラットフォームである。データ管理、特徴抽出、モデルトレーニング、結果分析モジュールで構成される、完全にモジュール化されたビデオ感情分析フレームワークを備えている。
論文参考訳（メタデータ） (Wed, 23 Mar 2022 14:28:08 GMT)
- All-in-One Platform for Multimodal Sentiment Analysisとのこと。ライセンスはGPL-3.0
- リポジトリはGitHub – thuiar/M-SENA: M-SENA: All-in-One Platform for Multimodal Sentiment Analysis

PiDAn:バックドア攻撃の検出手法

PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection and Mitigation in Deep Neural Networks [22.9]
バックドア攻撃はディープニューラルネットワーク(DNN)に新たな脅威をもたらす汚染されたデータを浄化するコヒーレンス最適化に基づくアルゴリズムであるPiDAnを提案する。当社のPiDAnアルゴリズムは90%以上の感染クラスを検出でき、95%の有毒サンプルを識別できる。
論文参考訳（メタデータ） (Thu, 17 Mar 2022 12:37:21 GMT)
- バックドア攻撃に対して本物のデータと有害な（有毒な）データを見分ける手法の提案。GTSRB、ILSVRC2012データセットで有効性を検証とのこと。

lfqa_discourse

How Do We Answer Complex Questions: Discourse Structure of Long-form Answers [52.0]
3つのデータセットから収集した長文回答の機能構造について検討した。私たちの主な目標は、人間が複雑な答えを作るためにどのように情報を整理するかを理解することです。我々の研究は、長期QAシステムの談話レベルのモデリングと評価に関する将来の研究に刺激を与えることができる。
論文参考訳（メタデータ）参考訳（全文） (Mon, 21 Mar 2022 15:14:10 GMT)
- NQ, ELI5, WebGPTに対して構成文の役割をアノーテーションしたデータセット
- リポジトリはGitHub – utcsnlp/lfqa_discourse: A repository for ACL 2022 paper “How do we answer complex questions: Discourse structure of long form answers”

Look for the Change: 動画からの状態変化検知

Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web Videos [55.6]
人間の行動は、しばしば「リンゴを切る」や「コーヒーを飲む」といった対象状態の変化を引き起こす。我々は、対応する対象状態とともに、状態修正動作を協調学習するための自己教師型モデルを開発する。本モデルでは,ノイズ適応重み付けモジュールを少数の注釈付静止画像で教師する。
論文参考訳（メタデータ） (Tue, 22 Mar 2022 11:45:10 GMT)
- ビデオで作業状態が変わるタイミングを検知する研究。データセットなども公開されている。
- プロジェクトサイトはLook for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web Videos (cvut.cz)

2025年4月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30