arXiv最新論文の紹介

A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models

A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.9]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。 PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。最近の研究では、高密度PLMは、性能を損なうことなくスパースサブネットに置き換えることができることが示されている。
論文参考訳（メタデータ） (Tue, 11 Oct 2022 07:26:34 GMT)
- BERTを対象として、データセットバイアスに対してスパースかつロバストなサブネットワークが存在するとの報告。
- リポジトリはllyx97/sparse-and-robust-PLM: [NeurIPS 2022] “A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models”, Yuanxin Liu, Fandong Meng, Zheng Lin, Jiangnan Li, Peng Fu, Yanan Cao, Weiping Wang, Jie Zhou (github.com)

An Empirical Study on Finding Spans

An Empirical Study on Finding Spans [31.4]
エンド・ツー・エンドの情報抽出システムのトレーニングに活用できるアプローチに着目する。タスク特性を考慮せずに、すべての下流タスクをうまく解決できる銀の弾丸がないことを認識します。
論文参考訳（メタデータ） (Thu, 13 Oct 2022 08:15:48 GMT)
- Named Entity Recognition (NER)、Event Extraction (EE)、Relation Extraction (RE)、Coreference Resolution (CR)といったスパンを発見するタスク（典型的には下記）に関するサーベイ
- 当然かもだが銀の弾丸はない「we found that there is not a single recipe that is best for all scenarios」とのこと

SpaceQA

SpaceQA: Answering Questions about the Design of Space Missions and Space Craft Concepts [57.0]
宇宙ミッション設計における最初のオープンドメインQAシステムであるSpaceQAについて述べる。 SpaceQAは、欧州宇宙機関(ESA)による、宇宙ミッションの設計に関する情報のアクセス、共有、再利用を容易にするイニシアチブの一部である。
論文参考訳（メタデータ） (Fri, 7 Oct 2022 09:41:39 GMT)
- 試行運用に入っているQAエンジンとのこと。一般的な部品をうまく組み合わせているように見える。
- リポジトリはexpertailab/SpaceQA (github.com)

CLIP also Understands Text

CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.6]
Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
論文参考訳（メタデータ） (Tue, 11 Oct 2022 23:35:18 GMT)
- 自然言語と画像を結びつけるように使用されることが多い印象のCLIPが純粋なテキスト処理でもBERTなどを超える能力を持っているとの報告。モデルサイズが小さいにも関わらず良好な結果を出せているのが興味深い。
  - 画像とのペアでの学習が理解を助けるというのはめっちゃ人間っぽいし何となく納得感もあるが、詳細な理由が知りたいところ

Foundation Transformers

Foundation Transformers [105.1]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文参考訳（メタデータ） (Wed, 12 Oct 2022 17:16:27 GMT)
- MicrosoftによるFoundationモデル用Transformer MAGNETOの紹介。Sub-LayerNormとDeepNet から得られた初期化戦略の導入が大きな変更で、優れた性能を達成とのこと。言語・Visionともに性能が向上しているように見える。
- プロジェクトサイトはAdvancing AGI: adaptable & generalizable intelligence (msragi.com)

Human Motion Diffusion Model

Human Motion Diffusion Model [35.1]
運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
論文参考訳（メタデータ） (Mon, 3 Oct 2022 09:17:41 GMT)
- モーション生成においてもDiffusionモデルが有効という報告
- リポジトリはHuman Motion Diffusion Model (guytevet.github.io)

Knowledge Unlearning for Mitigating Privacy Risks in Language Models

Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.3]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文参考訳（メタデータ） (Tue, 4 Oct 2022 10:18:11 GMT)
- 効率的なunlearning手法の提案、忘れるための損失関数を最適化するだけという驚きの方法
  - なぜこれでうまくいくのだろう・・・
- リポジトリはjoeljang/knowledge-unlearning: Knowledge Unlearning for Mitigating Privacy Risks in Language Models (github.com)

Multilingual Grade School Math (MGSM) ベンチマーク

Language Models are Multilingual Chain-of-Thought Reasoners [83.4]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 17:03:34 GMT)
- GSM8Kデータセットから,250の問題を手動で翻訳して Multilingual Grade School Math (MGSM)ベンチマークを作成し多言語における大規模言語モデルの性能評価
- EN-COT > Native-COTである点は興味深い（そして翻訳を介するのがもっとの性能が高いのも…）
- リポジトリはgoogle-research/url-nlp (github.com)

Backdoor Attacks in the Supply Chain of Masked Image Modeling

Backdoor Attacks in the Supply Chain of Masked Image Modeling [26.9]
Masked Image Modeling (MIM)は、イメージ事前トレーニングのための自己教師付き学習(SSL)に革命をもたらす。本稿では,バックドア攻撃のレンズを用いてMIMの最初のセキュリティリスク定量化を行う。評価の結果、MIMで構築したモデルは、リリースおよびダウンストリームフェーズにおける既存のバックドアアタックに対して脆弱であることがわかった。
論文参考訳（メタデータ） (Tue, 4 Oct 2022 14:27:42 GMT)
- MIM(Masked Image Modeling)を用いたモデルに対し、構築過程ごとにリスク分析を行った論文。驚きの結果というわけではないが、攻撃方法（前提）の整理がとても参考になる。

AMA: Ask Me Anything

Ask Me Anything: A simple strategy for prompting language models [24.3]
大規模言語モデル(LLM)は、単にタスクの実行方法を示す自然言語プロンプトを与えられただけで、追加のトレーニングは行われない。本研究では,質問応答(QA)のプロンプトが,モデル出力を制限するプロンプトよりも優れていることを示す。収集したプロンプトを適用して、入力の真のラベルに対していくつかのノイズの多い投票を行う。プロンプトは、非常に異なる精度と複雑な依存関係を持つことができる。
論文参考訳（メタデータ） (Thu, 6 Oct 2022 06:39:56 GMT)
- タスクをQA方式に変換、複数の回答を束ねることで性能を向上。open-source のGPT-J-6B でfew-shotのGPT3-175Bを超える性能を出せるとのこと。
- リポジトリはHazyResearch/ama_prompting: Ask Me Anything language model prompting (github.com)

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31