staka – ページ 171 – arXiv最新論文の紹介

機械学習・MLOpsに関するアンチパターン

Using AntiPatterns to avoid MLOps Mistakes [14.7]
アンチパターンは、欠陥のあるプラクティスや方法論の情報を提供する。いくつかのアンチパターンは技術的な誤りによるものであり、他のパターンは周囲の文脈について十分な知識を持っていないためである。アンチパターンのカタログ化に加えて、ソリューション、ベストプラクティス、MLOpsの成熟に向けた今後の方向性について説明します。
論文参考訳（メタデータ）参考訳（全文） (Wed, 30 Jun 2021 20:00:52 GMT)
- アンチパターンが9つ紹介されている。実用上重要・実務で見かけるものも多いなーと思うとともに、アカデミックな研究で見られるパターンもある。
- 設計に関わるアンチパターン
  - Data Leakage: 不適切データの使用、不適切なデータ拡張
  - Tuning-under-the-Carpet: ハイパーパラメータの不適切な管理
- 性能評価に関わるアンチパターン
  - PEST（Perceived Empirical SuperioriTy）: 実証的な検証が不十分
  - Bad Credit Assignment: パフォーマンス向上の理由が不明確
  - Grade-Your-own-Exam: モデル開発中の最終テスト用データへのアクセス
- デプロイ・メンテナンスに関わるアンチパターン
  - Act Now, Reflect Never: モデルのモニタリングをせずそのまま使い続ける
  - Set & Forget: 環境変化（concept driftのようなもの）への対応をしない
  - Communicate with Ambivalence: モデルの不確実性（uncertainty）を把握・共有しない
  - Data Crisis as a Service: データ抽出や処理の手順を記録・管理しない

AutoFormer: Transformerのアーキテクチャサーチ

AutoFormer: Searching Transformers for Visual Recognition [97.6]
本稿では,視覚トランスフォーマー検索専用のワンショットアーキテクチャ検索フレームワークであるAutoFormerを提案する。 AutoFormerは、スーパーネットトレーニング中に同じレイヤ内の異なるブロックの重みを絡み合わせる。我々は、AutoFormer-tiny/small/baseが5.7M/22.9M/53.7Mパラメータを持つImageNetで74.7%/81.7%/82.4%のtop-1精度を達成したことを示す。
論文参考訳（メタデータ） (Thu, 1 Jul 2021 17:59:30 GMT)
- 画像を対象としたTransformerで効率的なアーキテクチャサーチを行うという論文。少ないパラメータで優れた性能を出せる。
- コード等はhttps://github.com/microsoft/automlから参照可能なるとのこと。

Cross-lingual Transferにおける英語以外の有効性

Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.4]
ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
論文参考訳（メタデータ） (Wed, 30 Jun 2021 16:05:57 GMT)
- ゼロショットで多言語モデルを構築する場合は英語をベースにすることが多いがドイツ語やロシア語が有効なことがあるという興味深い報告。特にターゲットの言語が多様な場合に有効とのこと。機械翻訳を行ってなお有効とのことで意外な結果。事前学習モデルの性質なのか、言語特性によるものなのか非常に面白い。

XLM-E: ELECTRA型の事前学習モデル

XLM-E: Cross-lingual Language Model Pre-training via ELECTRA [46.8]
我々は,多言語コーパスと並列コーパスの両方で,XLM-Eという名前のモデルを事前学習する。我々のモデルは、様々な言語間理解タスクにおけるベースラインモデルよりもはるかに低コストで性能を向上する。
論文参考訳（メタデータ） (Wed, 30 Jun 2021 15:45:07 GMT)
- 計算コストの低い事前学習モデル。XQuADやPAWS-Xなどcross lingualなタスクで100倍の計算コストがかかるXLM_Rを超える優れた性能。
- Microsoftの成果。そのうち、https://github.com/microsoft/unilm　にコードが公開されたりするのだろうか。

AutoNovel: 新しいクラスの発見

AutoNovel: Automatically Discovering and Learning Novel Visual Categories [138.8]
一部のクラスをラベル付けしたイメージコレクションにおける新しいクラス発見問題に対処するため,AutoNovelと呼ばれる新しいアプローチを提案する。我々はAutoNovelを標準分類ベンチマークで評価し、新しいカテゴリー発見の手法をかなり上回っている。
論文参考訳（メタデータ） (Tue, 29 Jun 2021 11:12:16 GMT)
- モデル構築済みの条件下で新たなクラスを発見する研究。ラベル付きデータ＋ラベル無しデータでself-supervised learning、ラベル付きデータでモデル構築、このモデルをラベル無しデータのクラスタリングに利用、新たなクラス数の推定というステップのよう。
- コード等はhttps://www.robots.ox.ac.uk/~vgg/research/auto_novel/から確認可能。

Neural Speech Synthesisのサーベイ

A Survey on Neural Speech Synthesis [110.4]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTTSに関する包括的な調査を行っている。我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TTS、低リソースTTS、堅牢TTS、表現型TTS、適応型TTSなど、いくつかの先進的なトピックに焦点を当てる。
論文参考訳（メタデータ） (Tue, 29 Jun 2021 16:50:51 GMT)
- 全63ページ、引用数447と幅広いサーベイでText to Speechを概観するために非常に良い論文。Text to Speechの歴史から始まりその構成要素や特にニューラル系モデルの分類とその内容が説明されており、高度化の流れや将来の方向性を知る上でも素晴らしい内容だと思う。オープンな実装やコーパスなどリソースのまとめもありがたい。

TWAG（Topic-guided Wikipedia Abstract Generator ）: トピックガイド付きウィキペディア抽象要約生成

TWAG: A Topic-Guided Wikipedia Abstract Generator [23.9]
Wikipediaの抽象生成は、webソースからwikipediaの要約を蒸留することを目的としており、マルチドキュメント要約技術を採用することで大きな成功を収めている。それまでの著作では、抽象概念を平易なテキストとみなしており、要約があるエンティティを説明し異なるトピックに分解できるという事実を無視している。本稿では,トピック情報を用いた2段階モデルTWAGを提案する。
論文参考訳（メタデータ） (Tue, 29 Jun 2021 07:42:08 GMT)
- パラグラフとそのトピック情報を用い、トピックに応じた要約をすることでWikiCatSum datasetにおいてBARTなどより優れた結果を出したとの報告。
- ソース等はhttps://github.com/THU-KEG/TWAGから参照可能。

Visual Parsing with Self-Attention for Vision-Language Pre-training

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training [139.5]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。 CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。本研究では,視覚関係をよりよく学習し,モーダル間アライメントを促進するために,VLPのためのフルトランスフォーマー視覚埋め込みを提案する。。
論文参考訳（メタデータ） (Mon, 28 Jun 2021 04:42:48 GMT)
- マルチモーダルな事前学習モデルのため画像認識部分にもself-attentionを導入、MLM(Masked Language Modeling)、ITM(Image- Text Matching)、MFR(Masked Feature Regression)を活用してモデルを構築し、UNITERやSOHOを上回る性能を出したとのこと。

言語モデルを利用したマルチモーダルなFew Shotモデル

Multimodal Few-Shot Learning with Frozen Language Models [36.8]
十分な規模でトレーニングを行うと、自動回帰言語モデルは、ほんの数例で促された後、新しい言語タスクを学習する顕著な能力を示す。本稿では,このマイナショット学習能力をマルチモーダル環境(ビジョンと言語)に移すための,単純かつ効果的なアプローチを提案する。我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
論文参考訳（メタデータ） (Fri, 25 Jun 2021 21:07:09 GMT)
- 事前学習を行った言語モデルをマルチモーダル環境(画像とテキスト)に拡張する研究。言語モデルを構築しフリーズ。画像エンコーダをprompt作成用に構築。組み合わせるとマルチモーダルなFewShot可能なモデルとなるよう。
- ほんとか？という感じで面白い結果。

DeltaLM: 多言語エンコーダ-デコーダモデル

DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders [92.9]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己教師ありで事前学習する。実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文参考訳（メタデータ） (Fri, 25 Jun 2021 16:12:10 GMT)
- こちらは事前学習された言語生成（機械翻訳）用のエンコーダ・デコーダアーキテクチャのモデル。パラメータが少ないにもかかわらずmBARTやmT5、M2M-100を上回る性能。
- ∆LMは32 V100 GPUで1週間の計算コストと mBART（256 GPUで2.5週間）に比べ低コスト（？）での学習が可能とのこと。

2024年5月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31