Learning to Dub Movies via Hierarchical Prosody Models

  • Learning to Dub Movies via Hierarchical Prosody Models [167.6]
    テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。 本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 03:29:04 GMT)
  • 感情等を考慮した音声合成に関する研究。性能には様々な要素が絡むためAblation Studiesがとても参考になる。

Unifying Vision, Text, and Layout for Universal Document Processing

  • Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
    本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。 我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
    論文  参考訳(メタデータ)   (Mon, 5 Dec 2022 22:14:49 GMT)
  • 画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
  • リポジトリはmicrosoft/UDOP (github.com)

Multiverse: Multilingual Evidence for Fake News Detection

  • Multiverse: Multilingual Evidence for Fake News Detection [71.5]
    Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。 偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
    論文  参考訳(メタデータ)   (Fri, 25 Nov 2022 18:24:17 GMT)
  • マルチリンガルなFake News Detection。多言語を用いることで広いエビデンスが利用可能。観点が多様化する効果もありそう。
  • リポジトリはs-nlp/multilingual-fake-news: The code related to the paper (github.com)

MoCa: Momentum Calibration

  • Momentum Calibration for Text Generation [86.6]
    テキスト生成のためのMoCa(Momentum Calibration)を提案する。 MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 13:12:10 GMT)
  • テキスト生成時のビームサーチ部分を強化学習的な手法で改善するという研究。
  • CNN/DMでの結果が非常に高い

A Survey on Medical Document Summarization

  • A Survey on Medical Document Summarization [40.8]
    インターネットは医療業界に劇的な影響を与えており、文書をデジタルで保存、共有、管理することができる。 これにより、重要なデータを見つけ、共有しやすくなり、患者のケアを改善し、医学研究の機会を増やした。
    論文  参考訳(メタデータ)   (Sat, 3 Dec 2022 18:46:44 GMT)
  • 医療ドメインのマルチドキュメント要約に関するサーベイ
  • NLP全般の傾向かもしれないが、最近の盛り上がりを感じる内容

Backdoor Vulnerabilities in Normally Trained Deep Learning Models

  • Backdoor Vulnerabilities in Normally Trained Deep Learning Models [23.8]
    本研究は,通常訓練されたモデルにおいて,20種類のバックドア攻撃をガイダンスとして活用し,その対応性について検討する。 インターネットからダウンロードされる56のモデルには、315の自然のバックドアがあり、あらゆるカテゴリがカバーされています。 既存のスキャナーは、注入されたバックドア用に設計されており、少なくとも65個のバックドアを検知することができる。
    論文  参考訳(メタデータ)   (Tue, 29 Nov 2022 04:55:32 GMT)
  • 普通のモデルに存在し、Poisoningなどを用いなくても利用可能なNatural backdoorに関して整理した論文。
  • 意図せず存在している点が悩ましい。

DeepSpeed Data Efficiency

  • DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing [31.7]
    DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。 カリキュラム学習による効率的なデータサンプリングと、ランダムなレイヤワイドトークンドロップによる効率的なデータルーティングを提供する。 GPT-3 1.3B と BERT-Large 言語モデルの事前学習にソリューションを適用することで、1/2のデータと1/2の時間で同様のモデル品質を実現することができる。
    論文  参考訳(メタデータ)   (Wed, 7 Dec 2022 12:27:28 GMT)
  • データ的にも計算資源的にも効率的な学習フレームワークの提案。
  • リポジトリはmicrosoft/DeepSpeed: DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective. (github.com)

Deep Model Assembling

  • Deep Model Assembling [31.9]
    本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。 大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。 すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。 これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 08:04:06 GMT)
  • Deep Learningでの divide-and-conquer strategy 
  • 何となくうまくいきそうという感想と、なんでこれつながるんだろうという感想と不思議な感覚
  • リポジトリはLeapLabTHU/Model-Assembling: Code release for Deep Model Assembling (https://arxiv.org/abs/2212.04129) (github.com)

Diffusionモデルは絵を生成している?複製している?

  • Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models [53.0]
    生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。 フレームワークをCeleb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製にどのように影響するかを議論する。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 18:59:30 GMT)
  • 拡散モデルが絵を描いているのか学習データからコピーしているのかを検知するフレームワークの提案。サンプルとしてコピーとみなせそうな例が挙げられている。
  • 論文中には「Furthermore, it is highly likely that replication exists that our retrieval method is unable to identify.」との記載もあり、生成モデルがバズった中で言われていた懸念は現実的なリスクのよう。

Democratizing Machine Translation with OPUS-MT

  • Democratizing Machine Translation with OPUS-MT [56.2]
    本稿では,オープン機械翻訳モデルとツールの開発に焦点をあて,OPUSエコシステムについて述べる。 我々は現在進行中の言語カバレッジと翻訳品質向上のミッションについて論じるとともに,モジュール型翻訳モデルの開発に向けた取り組みについても述べる。
    論文  参考訳(メタデータ)   (Sun, 4 Dec 2022 22:16:27 GMT)
  • OPUSエコシステムとオープンな機械翻訳モデルに関する報告。
  • OPUSを直接的に使っているわけではないがFuguMT開発でも貴重な情報源だった。オープンな機械翻訳モデルは重要で素晴らしい取り組みであると思う。(FuguMT 英語→日本語日本語→英語多言語→日本語もCC BY SAとオープンなモデルの一つと宣伝、冬休みにはPLM利用版を公開したいなーと思っている)