Learning to Dub Movies via Hierarchical Prosody Models

  • Learning to Dub Movies via Hierarchical Prosody Models [167.6]
    テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。 本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 03:29:04 GMT)
  • 感情等を考慮した音声合成に関する研究。性能には様々な要素が絡むためAblation Studiesがとても参考になる。

Unifying Vision, Text, and Layout for Universal Document Processing

  • Unifying Vision, Text, and Layout for Universal Document Processing [105.4]
    本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。 我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
    論文  参考訳(メタデータ)   (Mon, 5 Dec 2022 22:14:49 GMT)
  • 画像、テキスト、レイアウトとすべての要素を一度に扱えるマルチモーダルなDocument Understandingモデル。多くのベンチマークでLayoutLM v3よりも高性能
  • リポジトリはmicrosoft/UDOP (github.com)

Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback

  • Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.3]
    人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。 ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
    論文  参考訳(メタデータ)   (Mon, 21 Nov 2022 16:00:31 GMT)
  • DeepMindによる全部入り強化学習のような論文。 “Inter-temporal Bradley-Terry” (IBT) modellingにより人間の判断をキャプチャする報酬モデルを構築できたとのこと。
    • 時間的な軌跡を考慮している点が特徴なのだろうか?
  • ビデオが公開されているImproving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback – YouTube

Retrieval-Augmented CM3 (RA-CM3) 

  • Retrieval-Augmented Multimodal Language Modeling [176.9]
    Retrieval-augmented CM3は、テキストと画像の混合を検索して生成できる最初のマルチモーダルモデルである。 RA-CM3は、知識集約型画像生成やマルチモーダルインコンテキスト学習のような新しい能力を示す。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 20:26:44 GMT)
    • 外部メモリを参照しながら生成等を行えるモデルの提案
    • ベースラインを上回り、パラメータ数、必要な計算リソースの面でも優秀とのこと

CLEVER: CKE as a distantLy supErVised multi-instancE leaRning

  • Visually Grounded Commonsense Knowledge Acquisition [132.4]
    大規模なコモンセンス知識ベースは、幅広いAIアプリケーションを促進する。 視覚知覚には、現実世界の実体に関する豊富な常識知識が含まれる。 本稿では,遠隔教師付きマルチインスタンス学習問題としてCKEを定式化するCLEVERを提案する。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 07:00:16 GMT)
  • vision-language pre-training model + 画像をソースとしたdistantly supervised learningでCommonsense Knowledgeを抽出する取り組み
  • リポジトリはthunlp/CLEVER (github.com)

Uni-Perceiver v2

  • Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks [86.7]
    大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。 具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。 Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 18:59:52 GMT)
  • 「first generalist model that achieves competitive results on major large-scale vision and vision-language tasks」を主張するモデルの提案
  • リポジトリはfundamentalvision/Uni-Perceiver (github.com)

InstructPix2Pix

  • InstructPix2Pix: Learning to Follow Image Editing Instructions [103.8]
    人間の指示から画像を編集する手法を提案する。 入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。 入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 18:58:43 GMT)
  • 指示によって画像を編集するモデルの提案。今までも様々な手法が提案されてきたが実用的なレベルになってきていると感じる
  • プロジェクトサイトはInstructPix2Pix (timothybrooks.com)、作例が凄い

Multilingual Multimodalityのサーベイ

  • Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities [10.7]
    マルチ言語とマルチモーダル(MultiX)ストリームの統合について検討する。 我々は、並列アノテーションで研究された言語、金または銀のデータを調べ、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。 モデリングアプローチの長所と短所とともに、どのシナリオを確実に使用できるのかをよりよく理解するために、モデリングアプローチについて説明します。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 21:46:01 GMT)

Vision-Language Pre-training

  • Vision-Language Pre-training: Basics, Recent Advances, and Future Trends [158.3]
    近年,マルチモーダルインテリジェンスのための視覚言語事前学習法が開発されている。 各カテゴリについて、最先端の手法の総合的なレビューを行い、現在進行中の進歩と課題について論じる。 また,研究コミュニティにおいて,大規模基盤モデル,統合モデリング,文脈内数発の学習,知識,堅牢性,コンピュータビジョンなど,高度なトピックが積極的に検討されていることについても論じる。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 17:11:36 GMT)
    • 画像-言語のマルチモーダルモデルに対する極めて詳細なサーベイ

Imagic: Text-Based Real Image Editing with Diffusion Models

  • Imagic: Text-Based Real Image Editing with Diffusion Models [19.1]
    我々は、複雑なテキストガイド付きセマンティック編集を1つの実画像に適用できることを実証する。 提案手法は1つの入力画像と1つのターゲットテキストのみを必要とする。 実際のイメージで動作し、追加の入力を必要としない。
    論文  参考訳(メタデータ)   (Mon, 17 Oct 2022 17:27:32 GMT)
    • 画像+指示で画像編集ができる手法提案。「鳥の画像」+「羽を広げる」で羽を広げた鳥の画像を生成可能。スタイル変換だけではなく物体の形も編集できているのが凄い。