コンテンツへスキップ
- Learning to Dub Movies via Hierarchical Prosody Models [167.6]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。 本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (Thu, 8 Dec 2022 03:29:04 GMT)
- 感情等を考慮した音声合成に関する研究。性能には様々な要素が絡むためAblation Studiesがとても参考になる。
- Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。 我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (Mon, 5 Dec 2022 22:14:49 GMT)
- 画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
- リポジトリはmicrosoft/UDOP (github.com)
- Momentum Calibration for Text Generation [86.6]
テキスト生成のためのMoCa(Momentum Calibration)を提案する。 MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
論文 参考訳(メタデータ) (Thu, 8 Dec 2022 13:12:10 GMT)
- テキスト生成時のビームサーチ部分を強化学習的な手法で改善するという研究。
- CNN/DMでの結果が非常に高い
- A Survey on Medical Document Summarization [40.8]
インターネットは医療業界に劇的な影響を与えており、文書をデジタルで保存、共有、管理することができる。 これにより、重要なデータを見つけ、共有しやすくなり、患者のケアを改善し、医学研究の機会を増やした。
論文 参考訳(メタデータ) (Sat, 3 Dec 2022 18:46:44 GMT)
- 医療ドメインのマルチドキュメント要約に関するサーベイ
- NLP全般の傾向かもしれないが、最近の盛り上がりを感じる内容
- Backdoor Vulnerabilities in Normally Trained Deep Learning Models [23.8]
本研究は,通常訓練されたモデルにおいて,20種類のバックドア攻撃をガイダンスとして活用し,その対応性について検討する。 インターネットからダウンロードされる56のモデルには、315の自然のバックドアがあり、あらゆるカテゴリがカバーされています。 既存のスキャナーは、注入されたバックドア用に設計されており、少なくとも65個のバックドアを検知することができる。
論文 参考訳(メタデータ) (Tue, 29 Nov 2022 04:55:32 GMT)
- 普通のモデルに存在し、Poisoningなどを用いなくても利用可能なNatural backdoorに関して整理した論文。
- 意図せず存在している点が悩ましい。
- Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models [53.0]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。 フレームワークをCeleb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製にどのように影響するかを議論する。
論文 参考訳(メタデータ) (Thu, 8 Dec 2022 18:59:30 GMT)
- 拡散モデルが絵を描いているのか学習データからコピーしているのかを検知するフレームワークの提案。サンプルとしてコピーとみなせそうな例が挙げられている。
- 論文中には「Furthermore, it is highly likely that replication exists that our retrieval method is unable to identify.」との記載もあり、生成モデルがバズった中で言われていた懸念は現実的なリスクのよう。
- Democratizing Machine Translation with OPUS-MT [56.2]
本稿では,オープン機械翻訳モデルとツールの開発に焦点をあて,OPUSエコシステムについて述べる。 我々は現在進行中の言語カバレッジと翻訳品質向上のミッションについて論じるとともに,モジュール型翻訳モデルの開発に向けた取り組みについても述べる。
論文 参考訳(メタデータ) (Sun, 4 Dec 2022 22:16:27 GMT)
- OPUSエコシステムとオープンな機械翻訳モデルに関する報告。
- OPUSを直接的に使っているわけではないがFuguMT開発でも貴重な情報源だった。オープンな機械翻訳モデルは重要で素晴らしい取り組みであると思う。(FuguMT 英語→日本語、日本語→英語、多言語→日本語もCC BY SAとオープンなモデルの一つと宣伝、冬休みにはPLM利用版を公開したいなーと思っている)