Dial2vec

A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives 

  • A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives [10.3]
    人間がどのように音楽を作曲し、新しいAIシステムがそのようなプロセスを模倣するかを説明する。 AIモデルとアルゴリズムがいかにして音楽を生成するかを理解するために、私たちは、音楽生成プロセスに参加するエージェントを探索、分析、記述する。
    論文  参考訳(メタデータ)   (Tue, 25 Oct 2022 11:54:30 GMT)
    • 音楽生成のサーベイ
    • 生成系が盛り上がるなか、音楽生成も興味深いターゲットだと思う

What Language Model to Train if You Have One Million GPU Hours

  • What Language Model to Train if You Have One Million GPU Hours? [54.3]
    モデリングの実践の違いがゼロショット一般化に与える影響について検討する。 また、多言語モデルの性能と、英語のみとの比較についても検討する。 私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
    論文  参考訳(メタデータ)   (Thu, 27 Oct 2022 13:43:27 GMT)
    • 100万GPU Hoursの予算で最適なモデルを探索した、BLOOM(Big Science Large Open-science Open- Access Multilingual Language Model)の構築プロセスをまとめた論文
    • この規模のモデル構築を行う機会があるかは置いておいて検討プロセスがとても参考になる

ECTSum

  • ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts [20.0]
    我々は、公開企業によって運営されている決算書(ECT)を文書として、新たなデータセットを提示する。 重要な事実を正確に捉えるために、単純なyet- Effective(ECT-BPS)アプローチも提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Oct 2022 16:21:37 GMT)
    • Earnings Call(業績報告)のTranscriptと対応するロイターの記事を用いた要約データセットの提案。圧縮率が103.67と極めて高い。これらデータをうまく要約可能なECT-BPSというモデルも提案されている
      • FinBERTを用いたExtractiveモジュールとT5ベースのParaphasingモジュールの組み合わせ
    • リポジトリはrajdeep345/ECTSum: ECTSum Dataset and Codes (github.com)

ERNIE-ViLG 2.0

  • ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [41.1]
    ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。 シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。 画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Thu, 27 Oct 2022 08:21:35 GMT)
    • ERNIE-ViLGの更新版、MS-COCO with zero-shot FID でSoTAを主張
    • 論文中の画像のレベルも上がっており、非常に競争の激しい分野という感想