コンテンツへスキップ
- SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text [35.8]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。 我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。 本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 23 Feb 2022 12:13:27 GMT)- 特定の手書きスタイルを表現するベクトルを抽出、未知語に対してもそれっぽいテキスト画像を合成できるという報告。
- 面白い結果であると同時に偽造とかに使えそうで怖い。。。
- Debugging Differential Privacy: A Case Study for Privacy Auditing [60.9]
監査は、差分プライベートなスキームの欠陥を見つけるためにも利用できることを示す。 このケーススタディでは、差分プライベートなディープラーニングアルゴリズムの最近のオープンソース実装を監査し、99.9999999999%の信頼を得て、この実装が要求される差分プライバシー保証を満たさないことを発見した。
論文 参考訳(メタデータ) (Thu, 24 Feb 2022 17:31:08 GMT)- オープンソースの差分プライバシー実装を監査し、(おそらく)問題があることを示した報告。
- 「while producing correct proofs is a necessary prerequisite to training private machine learning models, it is important to also get all the subtleties right.」という指摘が重要で、セキュリティにとっては細部が重要。
- JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [30.5]
本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。 JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。 我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
論文 参考訳(メタデータ) (Fri, 25 Feb 2022 10:52:00 GMT)- JParaCrawlのバージョン3、このデータで作成されたモデルの性能が大幅に上がっている。パラレルコーパスの公開は非常にありがたい(商用利用はできないなどライセンスには注意が必要)
- 論文に書かれた性能だとFuguMTより上そう。。。強化が必要だな。。。
- プロジェクトサイトはJParaCrawl (ntt.co.jp)
- Hierarchical Perceiver [99.3]
Perceiversのような一般的な知覚システムは任意の組み合わせで任意のモダリティを処理できる。 これらのモデルにある程度の局所性を導入することができ、その効率を大幅に改善できることを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 22 Feb 2022 13:39:14 GMT)- DeepMindのPerceiverに関する論文。フラット化(一定レベルでの局所性の保存)+チャンク分割が重要のように読めるが、マルチモーダル・前処理不要で強力な性能を維持しながら画像系処理の性能を改善というのは本当だろうか。。。
- Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified Multilingual Prompt [98.3]
我々はUniPromptと呼ばれるすべての言語に対して統一的なプロンプトを使用する新しいモデルを提案する。 統一的なプロンプトは多言語 PLM による計算であり、言語に依存しない表現を生成する。 提案手法は、異なる言語間で強いベースラインを著しく上回ることができる。
論文 参考訳(メタデータ) (Wed, 23 Feb 2022 11:57:52 GMT)- template towerとcontext towerを分けmultilingual PLMの下層レイヤーで初期化、それを融合するtowerは同上層レイヤーで初期化、label wordを言語に依存しない形で初期化するアプローチとのこと。
- なぜこれでうまくいくのか納得しかねるが、結果は有望に見える。
- コード、データともに公開予定の事だが、現状ではリンクが見つからなかった。
- A Review on Methods and Applications in Multimodal Deep Learning [8.2]
マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。 本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。 様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
論文 参考訳(メタデータ) 参考訳(全文) (Fri, 18 Feb 2022 13:50:44 GMT)- 近年非常に流行しているMMDL (MultiModal Deep Learning)のサーベイ。多様なモダリティをサーベイ対象にしており力作。概要を知るにはとても良い資料な気がする。
- ただ、MMDLという略称はあまり見ないような・・・
- Designing Effective Sparse Expert Models [45.2]
MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。 しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。 私たちの仕事はこれらの問題に焦点を当て、デザインガイドとして機能し、推論(SuperGLUE, ARC Easy, ARC Challenge)、要約(XSum, CNN-DM)、クローズドブック質問応答(WebQA, Natural Questions)、敵対的に構築されたタスク(Winogrande, ANLI R3)など、さまざまなタスクの集合において、トランスファーラーニングにおける最先端のパフォーマンスを初めて達成する。
論文 参考訳(メタデータ) (Thu, 17 Feb 2022 21:39:10 GMT)
- CAISE: Conversational Agent for Image Search and Editing [109.6]
画像検索・編集のための自動会話エージェント(CAISE)のデータセットを提案する。 私たちの知る限り、これは対話型画像検索とアノテーションの編集を提供する最初のデータセットです。 アシスタントアノテーションがツールで実行する機能は実行可能なコマンドとして記録される。
論文 参考訳(メタデータ) (Thu, 24 Feb 2022 00:55:52 GMT)- 画像検索、編集を対話で行うモデル構築のためのデータセットを提案。ベースラインモデルも構築しているが、人との差は大きい。
- Adobe Researchの論文で今後このようなインタフェースに期待大。
- Survey on Large Scale Neural Network Training [48.4]
現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。 この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。
論文 参考訳(メタデータ) (Mon, 21 Feb 2022 18:48:02 GMT)- 大規模ニューラルネットをいかに学習するかに関するサーベイ。Single GPU、マルチ GPU双方の内容を扱っている。8ページと短いが様々なアプローチとトレードオフが整理されていて面白い。
- VLP: A Survey on Vision-Language Pre-training [24.1]
事前学習モデルの出現は、コンピュータビジョン (CV) や自然言語処理 (NLP) のような一様場を新しい時代にもたらした。 本稿では、画像テキストやビデオテキストの事前学習など、視覚言語事前学習の最近の進歩と新たなフロンティアについて調査する。
論文 参考訳(メタデータ) (Mon, 21 Feb 2022 02:58:34 GMT)- image-text、video-textに対するVLP(VisionLanguage Pre-training)に関するサーベイ。8ページと短いが参考になる。6ページの表から非常の多くの手法があることが分かる。。。