コンテンツへスキップ
- Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey [119.5]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。 予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。 これは彼らのアウト・オブ・ディストリビューション(OOD)と敵の堅牢性を著しく損なう。
論文 参考訳(メタデータ) (Thu, 25 Aug 2022 03:51:39 GMT)- 大規模言語モデルにはロバストでない特徴量を学習(shortcut learning)した結果がふくまれOODなデータに対して性能劣化が著しい。このようなshortcut learning問題をサーベイした論文。
- 機械翻訳などにおいても悩ましい問題であるが緩和策へのポインタも示されていて参考になる。
- 論文でも触れられているが、まずは性能が著しく減少しているかの正しいテストが重要だと思う。
- Bugs in the Data: How ImageNet Misrepresents Biodiversity [99.0]
ImageNet-1k検証セットで野生動物を表す269のクラスから13450の画像を解析した。 多くのクラスが未定義あるいは重複しており、画像の12%が誤ってラベル付けされていることがわかった。 また,ImageNet-1kに含まれる野生生物関連ラベルと画像の両方が,地理的,文化的に有意な偏見を呈していることがわかった。
論文 参考訳(メタデータ) (Wed, 24 Aug 2022 17:55:48 GMT)- 非常に良く用いられているImageNet-1kに問題のあるクラス付けがあるという指摘。12%はモデル品質に影響を与えるレベルに思う。このような検証はとても大事。
- Semi-Supervised and Unsupervised Deep Visual Learning: A Survey [76.3]
半教師なし学習と教師なし学習は、ラベルなしの視覚データから学ぶための有望なパラダイムを提供する。 本稿では, 半教師付き学習(SSL)と非教師付き学習(UL)の先進的な深層学習アルゴリズムについて, 統一的な視点による視覚的認識について概説する。
論文 参考訳(メタデータ) (Wed, 24 Aug 2022 04:26:21 GMT)
- A Survey on Temporal Graph Representation Learning and Generative Modeling [21.2]
時間グラフは、実体間の動的関係を表し、ソーシャルネットワーク、eコマース、コミュニケーション、道路ネットワーク、生物学的システムなど、多くの実生活アプリケーションで発生する。 本稿では,近年提案されている時間依存グラフ表現学習と生成モデルによる時間グラフ処理手法について概観的に検討する。
論文 参考訳(メタデータ) (Thu, 25 Aug 2022 14:42:08 GMT)- 時間的グラフ表現アプローチに関するサーベイ。
- 現実的には良く遭遇する状況だが、そのままで扱うことは難しいという認識。概観を知るのに良いサーベイだが、性能関連のまとめが欲しいなという印象…
- Survey on Evolutionary Deep Learning: Principles, Algorithms, Applications and Open Issues [14.2]
本稿では、自動機械学習(AutoML)の観点から進化的深層学習(EDL)を解析することを目的とする。 DLパイプラインによると、我々は、機能工学、モデル生成、モデル展開から新しい分類法によるモデル展開まで、EDL手法を体系的に導入する。 主要なアプリケーション、オープンイシュー、将来の研究の有望なラインが提案されている。
論文 参考訳(メタデータ) (Tue, 23 Aug 2022 00:21:28 GMT)- AutoMLとEDL(Evolutionary Deep Learning)のサーベイ
- EDLはFeature engineering、モデル構築時のParameter optimizationやArchitecture optimization、デプロイにおける効率化などに用いられているとのこと。
- Training a T5 Using Lab-sized Resources [10.8]
大きなデータセットで大規模なニューラルネットワークモデルをトレーニングするのは、リソースと時間集約的です。 本稿では, 研究機関が持つであろう資源を用いて, 大規模言語モデルを訓練し, (b) 妥当な時間で学習するための様々な手法を提案する。
論文 参考訳(メタデータ) (Thu, 25 Aug 2022 13:55:16 GMT) - デンマーク語のT5モデルを普通のラボが持つ程度の環境で構築するための手法提案。使用したリソースは 「AMD EPYC 7252 8-Core CPUs×2、 128 GB of RAM、 NVIDIA A100 (40 GB RAM) ×4」のシングルノードとのことで、ノード間分散無し・複数GPUと大規模でない環境(複数ノードまでは持っていない or AWSで簡単に構築できる)として現実的なものだと思う。
- かかった時間はsmallで91時間、largeで508時間と書かれている。仮にAWSのp4d.24xlargeを使い(GPUが8個なので)半分の時間で終わるとすると、largeの学習が8300USD(100万円ちょっと)でできることになる。
- 構築結果は「strombergnlp/dant5-small · Hugging Face」と「strombergnlp/dant5-large · Hugging Face」とのこと。
- Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6]
汎用多目的基礎モデルBEiT-3を紹介する。 視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (Mon, 22 Aug 2022 16:55:04 GMT)
- DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。 トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。 次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (Thu, 25 Aug 2022 17:45:49 GMT)- 少量のデータを用いて画像生成モデルに新たな画像(例えば自分のペットなど)を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
- プロジェクトサイトはDreamBooth
- Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization [108.1]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。 このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。 パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bを上回る。
論文 参考訳(メタデータ) (Sun, 21 Aug 2022 01:00:54 GMT)- 抽象型要約に最適化された言語モデルの提案。事前学習時のデータの使い方の工夫、(self-attentionより効率的とされる)disentangled attentionの利用、長文のための fusion-in-encoderによってパラメータ効率の高いモデルを構築。
- Role of Data Augmentation in Unsupervised Anomaly Detection [30.4]
自己教師付き学習(SSL)は、現実のタスクの監視信号を作成するための有望な代替手段として登場した。 近年の研究では、増強のタイプがパフォーマンスに重大な影響を与えることが報告されている。
論文 参考訳(メタデータ) (Tue, 16 Aug 2022 13:09:25 GMT)- (やるべきか迷いことも多い)異常検知におけるData Augmentationの調査。
- 当然といえば当然だが異常発生メカニズムの整合が重要とのこと。対象はSelf-supervised learningのAnomaly Detectionだが、一般的にも通用する話だと思う。