arXiv – ページ 117 – arXiv最新論文の紹介

task vectors

Editing Models with Task Arithmetic [70.0]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 05:50:53 GMT)
タスクを表すベクトルを作る・使うまでは理解できるとして、演算ができるって本当か？という研究。とても興味深い。
リポジトリはmlfoundations/task_vectors (github.com)

Learning to Dub Movies via Hierarchical Prosody Models

Learning to Dub Movies via Hierarchical Prosody Models [167.6]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 03:29:04 GMT)
感情等を考慮した音声合成に関する研究。性能には様々な要素が絡むためAblation Studiesがとても参考になる。

Unifying Vision, Text, and Layout for Universal Document Processing

Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文参考訳（メタデータ） (Mon, 5 Dec 2022 22:14:49 GMT)
画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
リポジトリはmicrosoft/UDOP (github.com)

Multiverse: Multilingual Evidence for Fake News Detection

Multiverse: Multilingual Evidence for Fake News Detection [71.5]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文参考訳（メタデータ） (Fri, 25 Nov 2022 18:24:17 GMT)
マルチリンガルなFake News Detection。多言語を用いることで広いエビデンスが利用可能。観点が多様化する効果もありそう。
リポジトリはs-nlp/multilingual-fake-news: The code related to the paper (github.com)

MoCa: Momentum Calibration

Momentum Calibration for Text Generation [86.6]
テキスト生成のためのMoCa(Momentum Calibration)を提案する。 MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 13:12:10 GMT)
テキスト生成時のビームサーチ部分を強化学習的な手法で改善するという研究。
CNN/DMでの結果が非常に高い

A Survey on Medical Document Summarization

A Survey on Medical Document Summarization [40.8]
インターネットは医療業界に劇的な影響を与えており、文書をデジタルで保存、共有、管理することができる。これにより、重要なデータを見つけ、共有しやすくなり、患者のケアを改善し、医学研究の機会を増やした。
論文参考訳（メタデータ） (Sat, 3 Dec 2022 18:46:44 GMT)
医療ドメインのマルチドキュメント要約に関するサーベイ
NLP全般の傾向かもしれないが、最近の盛り上がりを感じる内容

Backdoor Vulnerabilities in Normally Trained Deep Learning Models

Backdoor Vulnerabilities in Normally Trained Deep Learning Models [23.8]
本研究は,通常訓練されたモデルにおいて,20種類のバックドア攻撃をガイダンスとして活用し,その対応性について検討する。インターネットからダウンロードされる56のモデルには、315の自然のバックドアがあり、あらゆるカテゴリがカバーされています。既存のスキャナーは、注入されたバックドア用に設計されており、少なくとも65個のバックドアを検知することができる。
論文参考訳（メタデータ） (Tue, 29 Nov 2022 04:55:32 GMT)
普通のモデルに存在し、Poisoningなどを用いなくても利用可能なNatural backdoorに関して整理した論文。
意図せず存在している点が悩ましい。

DeepSpeed Data Efficiency

DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing [31.7]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。カリキュラム学習による効率的なデータサンプリングと、ランダムなレイヤワイドトークンドロップによる効率的なデータルーティングを提供する。 GPT-3 1.3B と BERT-Large 言語モデルの事前学習にソリューションを適用することで、1/2のデータと1/2の時間で同様のモデル品質を実現することができる。
論文参考訳（メタデータ） (Wed, 7 Dec 2022 12:27:28 GMT)
データ的にも計算資源的にも効率的な学習フレームワークの提案。
リポジトリはmicrosoft/DeepSpeed: DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective. (github.com)

Deep Model Assembling

Deep Model Assembling [31.9]
本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 08:04:06 GMT)
Deep Learningでの divide-and-conquer strategy
何となくうまくいきそうという感想と、なんでこれつながるんだろうという感想と不思議な感覚
リポジトリはLeapLabTHU/Model-Assembling: Code release for Deep Model Assembling (https://arxiv.org/abs/2212.04129) (github.com)

Diffusionモデルは絵を生成している？複製している？

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models [53.0]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。フレームワークをCeleb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製にどのように影響するかを議論する。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 18:59:30 GMT)
拡散モデルが絵を描いているのか学習データからコピーしているのかを検知するフレームワークの提案。サンプルとしてコピーとみなせそうな例が挙げられている。
論文中には「Furthermore, it is highly likely that replication exists that our retrieval method is unable to identify.」との記載もあり、生成モデルがバズった中で言われていた懸念は現実的なリスクのよう。

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31