UPaintingとeDiffi

  • UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance [40.5]
    我々は,シンプルかつ複雑なシーン画像生成を統一する,シンプルで効果的なアプローチ,すなわちUPaintingを提案する。 UPaintingは、事前訓練された画像テキストマッチングモデルからテキスト条件拡散モデルにクロスモーダルガイダンスを統合する。 UPaintingは、単純なシーンと複雑なシーンの両方において、キャプションの類似性と画像の忠実さという点で、他のモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Mon, 31 Oct 2022 02:33:17 GMT)
  • Baiduによる品質の高い画像生成モデルの提案、MS-COCO with zero-shot FID ではSoTAとはいかないまでも良いスコア。本当に競争が激しい分野。。。
  • eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.5]
    大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。 異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
    論文  参考訳(メタデータ)   (Wed, 2 Nov 2022 17:43:04 GMT)
  • こちらはNVIDIAの成果
  • プロジェクトサイトはeDiffi: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers (deepimagination.cc)

Deep Generative Models on 3D Representations: A Survey

  • Deep Generative Models on 3D Representations: A Survey [31.8]
    変分オートエンコーダ(VAE)やGAN(Generative Adversarial Network)などの深層生成モデルは、2次元画像合成において大きな進歩を遂げている。本質的に効率的な表現(ピクセルグリッド)を持つ2D画像とは異なり、3Dデータを表現することははるかに多くの課題に直面する可能性がある。
    論文  参考訳(メタデータ)   (Thu, 27 Oct 2022 17:59:50 GMT)
    • point cloud、mesh、voxel grid 等をアウトプットとする、3次元データ生成モデルのサーベイ

  • State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [101.0]
    モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。 本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
    論文  参考訳(メタデータ)   (Thu, 27 Oct 2022 17:59:53 GMT)

Trustworthy Human Computation: A Survey 

  • Trustworthy Human Computation: A Survey [21.4]
    人間計算(Human Computation)はAIのみでは解くのが難しい問題を多くの人間と協力して解くアプローチである。 人間計算ではAIと人間の信頼関係を構築することが重要だ。本調査は,信頼性の高い人間計算の実現に向けた基礎研究である。
    論文  参考訳(メタデータ)   (Sat, 22 Oct 2022 01:30:50 GMT)
    • Human ComputationとAIの信頼性のサーベイ
    • AIの社会実装の上で重要であり、とても勉強になる
      • 信頼性、説明性、いろいろな観点があるが実装するのはとても難しい…

XY-LENT: X-Y bitext enhanced Language ENcodings using Transformers

  • Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning [99.4]
    我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
    論文  参考訳(メタデータ)   (Wed, 26 Oct 2022 17:16:52 GMT)
    • mBERTやXLM-Rより優れた多言語モデルの提案

Dial2vec

A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives 

  • A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives [10.3]
    人間がどのように音楽を作曲し、新しいAIシステムがそのようなプロセスを模倣するかを説明する。 AIモデルとアルゴリズムがいかにして音楽を生成するかを理解するために、私たちは、音楽生成プロセスに参加するエージェントを探索、分析、記述する。
    論文  参考訳(メタデータ)   (Tue, 25 Oct 2022 11:54:30 GMT)
    • 音楽生成のサーベイ
    • 生成系が盛り上がるなか、音楽生成も興味深いターゲットだと思う

What Language Model to Train if You Have One Million GPU Hours

  • What Language Model to Train if You Have One Million GPU Hours? [54.3]
    モデリングの実践の違いがゼロショット一般化に与える影響について検討する。 また、多言語モデルの性能と、英語のみとの比較についても検討する。 私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
    論文  参考訳(メタデータ)   (Thu, 27 Oct 2022 13:43:27 GMT)
    • 100万GPU Hoursの予算で最適なモデルを探索した、BLOOM(Big Science Large Open-science Open- Access Multilingual Language Model)の構築プロセスをまとめた論文
    • この規模のモデル構築を行う機会があるかは置いておいて検討プロセスがとても参考になる

ECTSum

  • ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts [20.0]
    我々は、公開企業によって運営されている決算書(ECT)を文書として、新たなデータセットを提示する。 重要な事実を正確に捉えるために、単純なyet- Effective(ECT-BPS)アプローチも提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Oct 2022 16:21:37 GMT)
    • Earnings Call(業績報告)のTranscriptと対応するロイターの記事を用いた要約データセットの提案。圧縮率が103.67と極めて高い。これらデータをうまく要約可能なECT-BPSというモデルも提案されている
      • FinBERTを用いたExtractiveモジュールとT5ベースのParaphasingモジュールの組み合わせ
    • リポジトリはrajdeep345/ECTSum: ECTSum Dataset and Codes (github.com)

ERNIE-ViLG 2.0

  • ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [41.1]
    ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。 シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。 画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Thu, 27 Oct 2022 08:21:35 GMT)
    • ERNIE-ViLGの更新版、MS-COCO with zero-shot FID でSoTAを主張
    • 論文中の画像のレベルも上がっており、非常に競争の激しい分野という感想

DiffusionDB

  • DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models [14.3]
    DiffusionDBは、最初の大規模なテキストと画像のプロンプトデータセットである。 データセット内のプロンプトを分析し、これらのプロンプトの重要な特性について議論する。 この人間の活動するデータセットの、前例のないスケールと多様性は、エキサイティングな研究機会を提供する。
    論文  参考訳(メタデータ)   (Wed, 26 Oct 2022 17:54:20 GMT)
    • 200万件のプロンプト・画像のペア。Stable Diffusion discord serverから取得されたとのこと。ライセンスはCC-0。
      • 画像生成のプロンプトは(生成モデルが用いたデータに共通部分が多いこともあって)使いまわせる要素がある。傾向分析には有用そう。