2022年12月 – ページ 4 – arXiv最新論文の紹介

Deep Model Assembling

Deep Model Assembling [31.9]
本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 08:04:06 GMT)
Deep Learningでの divide-and-conquer strategy
何となくうまくいきそうという感想と、なんでこれつながるんだろうという感想と不思議な感覚
リポジトリはLeapLabTHU/Model-Assembling: Code release for Deep Model Assembling (https://arxiv.org/abs/2212.04129) (github.com)

Diffusionモデルは絵を生成している？複製している？

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models [53.0]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。フレームワークをCeleb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製にどのように影響するかを議論する。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 18:59:30 GMT)
拡散モデルが絵を描いているのか学習データからコピーしているのかを検知するフレームワークの提案。サンプルとしてコピーとみなせそうな例が挙げられている。
論文中には「Furthermore, it is highly likely that replication exists that our retrieval method is unable to identify.」との記載もあり、生成モデルがバズった中で言われていた懸念は現実的なリスクのよう。

Democratizing Machine Translation with OPUS-MT

Democratizing Machine Translation with OPUS-MT [56.2]
本稿では,オープン機械翻訳モデルとツールの開発に焦点をあて,OPUSエコシステムについて述べる。我々は現在進行中の言語カバレッジと翻訳品質向上のミッションについて論じるとともに,モジュール型翻訳モデルの開発に向けた取り組みについても述べる。
論文参考訳（メタデータ） (Sun, 4 Dec 2022 22:16:27 GMT)
OPUSエコシステムとオープンな機械翻訳モデルに関する報告。
OPUSを直接的に使っているわけではないがFuguMT開発でも貴重な情報源だった。オープンな機械翻訳モデルは重要で素晴らしい取り組みであると思う。（FuguMT 英語→日本語、日本語→英語、多言語→日本語もCC BY SAとオープンなモデルの一つと宣伝、冬休みにはPLM利用版を公開したいなーと思っている）

CREPE: CorREction of PrEsupposition

CREPE: Open-Domain Question Answering with False Presuppositions [92.2]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。 25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文参考訳（メタデータ） (Wed, 30 Nov 2022 18:54:49 GMT)
前提条件が間違っている状況を含むQAデータセットの提案、8400のうち25%に誤りが含まれ、訂正内容もデータになっているとのこと。
当然ながら通常のQAより難しいタスクであり、現実的。質問の一部に反論（訂正）せねばならず面白い。
リポジトリはvelocityCavalry/CREPE: An original implementation of the paper “CREPE: Open-Domain Question Answering with False Presuppositions” (github.com)

FLIP: Fast Language-Image Pre-trainingFLIP

Scaling Language-Image Pre-training via Masking [63.4]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。 FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文参考訳（メタデータ） (Thu, 1 Dec 2022 18:59:57 GMT)
学習時に画像パッチの一部をマスクすることで高速に学習ができるとの報告、CLIPより優れた結果だったのこと。
50%、75%という高いマスク比で高速に学習ができるのはそんな気はするが、性能が落ちていなさそう（一部は勝っている）なのが凄い。

DiffusionBERT

DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models [81.8]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (Wed, 30 Nov 2022 15:41:24 GMT)
NLPにもDiffusion Model
リポジトリはHzfinfdu/Diffusion-BERT: Implementation of DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models (github.com)

X-Prompt: eXtensible Prompt

Extensible Prompts for Language Models [88.2]
我々は、自然言語(NL)を超えた大規模言語モデル(LLM)を促進するためのX-Promptを提案する。 X-Prompt は、NL だけでなく、NL の言葉がほとんど説明できないものを表す架空の単語の記述語彙も LLM に指示する。 X-Promptの有望な結果は、コミュニケーションギャップを埋めるために人間とLLMの高度な相互作用に近づく可能性を示している。
論文参考訳（メタデータ） (Thu, 1 Dec 2022 16:11:56 GMT)
自然言語で表現できないものを扱えるよう拡張したプロンプトの提案。
何かをシャープに表すことができるのは有効そう。引用されている通り、Fugu-MT 論文翻訳(概要): An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (fugumt.com)に近そう
プロジェクトサイトはmicrosoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities (github.com)

BARTSmiles

BARTSmiles: Generative Masked Language Models for Molecular Representations [10.0]
BARTSmilesは、従来の自己制御分子表現よりも桁違いに計算量の多いBARTライクなモデルである。詳細な評価では、BARTSmilesは分類、回帰、生成タスクにまたがる他の自己監督的表現を一貫して上回っている。
論文参考訳（メタデータ） (Tue, 29 Nov 2022 16:30:53 GMT)
化学分野におけるBARTの利用、言語モデルが有効なものが面白い。
リポジトリはYerevaNN/BARTSmiles: BARTSmiles, generative masked language model for molecular representations (github.com)

VectorFusion

VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.9]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。近年のテキスト・ツー・3D研究に触発されて,Score Distillation Sampling を用いたキャプションと整合したSVGを学習した。実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文参考訳（メタデータ） (Mon, 21 Nov 2022 10:04:27 GMT)
Text-to-SVGの研究、Diffusion Modelは本当に強力。
プロジェクトサイトはVectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models (ajayj.com)

On the Security Vulnerabilities of Text-to-SQL Models

On the Security Vulnerabilities of Text-to-SQL Models [25.3]
2つの商用ブラックボックスのText-to-sqlモジュールは悪意のあるコードを生成するために操作可能であることを示す。これは、NLPモデルが野生における攻撃防御として利用される危険性の初めての実証である。
論文参考訳（メタデータ） (Mon, 28 Nov 2022 14:38:45 GMT)
Text-to-SQLモデルに対する攻撃、一定の対策がなされた商用にシステムに対しても攻撃が成功できているのが興味深い。

2022年12月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31