2022年8月 – arXiv最新論文の紹介

半教師あり、教師なしなDeep Visual Learningのサーベイ

Semi-Supervised and Unsupervised Deep Visual Learning: A Survey [76.3]
半教師なし学習と教師なし学習は、ラベルなしの視覚データから学ぶための有望なパラダイムを提供する。本稿では, 半教師付き学習(SSL)と非教師付き学習(UL)の先進的な深層学習アルゴリズムについて, 統一的な視点による視覚的認識について概説する。
論文参考訳（メタデータ） (Wed, 24 Aug 2022 04:26:21 GMT)

時間グラフ表現学習のサーベイ

A Survey on Temporal Graph Representation Learning and Generative Modeling [21.2]
時間グラフは、実体間の動的関係を表し、ソーシャルネットワーク、eコマース、コミュニケーション、道路ネットワーク、生物学的システムなど、多くの実生活アプリケーションで発生する。本稿では,近年提案されている時間依存グラフ表現学習と生成モデルによる時間グラフ処理手法について概観的に検討する。
論文参考訳（メタデータ） (Thu, 25 Aug 2022 14:42:08 GMT)
- 時間的グラフ表現アプローチに関するサーベイ。
- 現実的には良く遭遇する状況だが、そのままで扱うことは難しいという認識。概観を知るのに良いサーベイだが、性能関連のまとめが欲しいなという印象…

Survey on Evolutionary Deep Learning

Survey on Evolutionary Deep Learning: Principles, Algorithms, Applications and Open Issues [14.2]
本稿では、自動機械学習(AutoML)の観点から進化的深層学習(EDL)を解析することを目的とする。 DLパイプラインによると、我々は、機能工学、モデル生成、モデル展開から新しい分類法によるモデル展開まで、EDL手法を体系的に導入する。主要なアプリケーション、オープンイシュー、将来の研究の有望なラインが提案されている。
論文参考訳（メタデータ） (Tue, 23 Aug 2022 00:21:28 GMT)
- AutoMLとEDL（Evolutionary Deep Learning）のサーベイ
- EDLはFeature engineering、モデル構築時のParameter optimizationやArchitecture optimization、デプロイにおける効率化などに用いられているとのこと。

LabサイズリソースでのT5モデルの構築

Training a T5 Using Lab-sized Resources [10.8]
大きなデータセットで大規模なニューラルネットワークモデルをトレーニングするのは、リソースと時間集約的です。本稿では, 研究機関が持つであろう資源を用いて, 大規模言語モデルを訓練し, (b) 妥当な時間で学習するための様々な手法を提案する。
論文参考訳（メタデータ） (Thu, 25 Aug 2022 13:55:16 GMT)
デンマーク語のT5モデルを普通のラボが持つ程度の環境で構築するための手法提案。使用したリソースは「AMD EPYC 7252 8-Core CPUs×2、 128 GB of RAM、 NVIDIA A100 (40 GB RAM) ×4」のシングルノードとのことで、ノード間分散無し・複数GPUと大規模でない環境（複数ノードまでは持っていない or AWSで簡単に構築できる）として現実的なものだと思う。
- かかった時間はsmallで91時間、largeで508時間と書かれている。仮にAWSのp4d.24xlargeを使い（GPUが8個なので）半分の時間で終わるとすると、largeの学習が8300USD（100万円ちょっと）でできることになる。
構築結果は「strombergnlp/dant5-small · Hugging Face」と「strombergnlp/dant5-large · Hugging Face」とのこと。

BEiT-3

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks [87.6]
汎用多目的基礎モデルBEiT-3を紹介する。視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文参考訳（メタデータ） (Mon, 22 Aug 2022 16:55:04 GMT)
- vision、vision-languageの複数のタスクでSoTAを達成するfoundation model
- 画像を外国語（言語）として扱いその後の処理を行っていることが高性能のカギという興味深い主張。Imglishという言葉も面白い。
- プロジェクトサイトはunilm/beit at master · microsoft/unilm (github.com)

DreamBooth: 画像生成モデルのパーソナライズ

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文参考訳（メタデータ） (Thu, 25 Aug 2022 17:45:49 GMT)
- 少量のデータを用いて画像生成モデルに新たな画像（例えば自分のペットなど）を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
- プロジェクトサイトはDreamBooth

Z-Code++: 要約のための事前学習モデル

Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization [108.1]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bを上回る。
論文参考訳（メタデータ） (Sun, 21 Aug 2022 01:00:54 GMT)
- 抽象型要約に最適化された言語モデルの提案。事前学習時のデータの使い方の工夫、（self-attentionより効率的とされる）disentangled attentionの利用、長文のための fusion-in-encoderによってパラメータ効率の高いモデルを構築。

教師無し異常検知におけるData Augmentation

Role of Data Augmentation in Unsupervised Anomaly Detection [30.4]
自己教師付き学習(SSL)は、現実のタスクの監視信号を作成するための有望な代替手段として登場した。近年の研究では、増強のタイプがパフォーマンスに重大な影響を与えることが報告されている。
論文参考訳（メタデータ） (Tue, 16 Aug 2022 13:09:25 GMT)
- （やるべきか迷いことも多い）異常検知におけるData Augmentationの調査。
- 当然といえば当然だが異常発生メカニズムの整合が重要とのこと。対象はSelf-supervised learningのAnomaly Detectionだが、一般的にも通用する話だと思う。

XAIとEnd User

Transcending XAI Algorithm Boundaries through End-User-Inspired Design [27.9]
エンドユーザに対する説明責任重視の機能サポートの欠如は、高度なドメインにおけるAIの安全で責任ある使用を妨げる可能性がある。我々の研究は、エンドユーザーがXAIを使用する際の技術的な問題を根底から解決することで、新たな研究課題がもたらされることを示している。このようなエンドユーザにインスパイアされた研究質問は、AIを民主化し、クリティカルドメインにおけるAIの責任ある使用を保証することによって、社会的善を促進できる可能性がある。
論文参考訳（メタデータ） (Thu, 18 Aug 2022 09:44:51 GMT)
- XAIを32名の参加者に試したみたという論文。Explanation formの整理も参考になる。

法的議論と自然言語処理

Mining Legal Arguments in Court Decisions [43.1]
我々は,欧州人権裁判所の手続において,法的議論のための新たな注釈体系を開発する。まず,欧州人権裁判所(ECHR)の手続における法的議論のための新たな注釈体系を設計し,法的議論研究の理論と実践に深く根ざしている。第二に、373の判決(トークン2.3Mと15kの注釈付き引数)の大きなコーパスをコンパイルし、注釈付けします。最後に、法的なnlpドメインにおける最先端モデルを上回る議論マイニングモデルを訓練し、専門家による徹底的な評価を提供する。
論文参考訳（メタデータ） (Fri, 12 Aug 2022 08:59:55 GMT)
- 法的な議論のための大規模コーパス作成と分類モデルの構築。
  - ドメイン特化な研究は面白いが法律系での実際の使われ方がよくわかっていないので、評価関連がこれでよいのかが謎。Leak系の問題への対応はどうやっているのだろう。
- trusthlt/mining-legal-arguments: Mining Legal Arguments in Court Decisions – Data and software (github.com)

2022年8月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31