2022年11月 – ページ 5 – arXiv最新論文の紹介

Dial2vec

Dial2vec: Self-Guided Contrastive Learning of Unsupervised Dialogue Embeddings [41.8]
教師なし対話の埋め込みを学習するタスクについて紹介する。事前学習された単語や文の埋め込みや、事前学習された言語モデルによるエンコーディングといったトライアル的なアプローチは、実現可能であることが示されている。本稿では,Dial2vecという自己指導型コントラスト学習手法を提案する。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 11:14:06 GMT)
- 2vec系対話版、評価のために様々なデータをまとめたベンチマークを構築している
- ソースなどはAlibabaResearch/DAMO-ConvAI: DAMO ConvAI: The official repository which contains the codebase for Alibaba DAMO Conversational AI. (github.com)で公開予定とのこと

A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives [10.3]
人間がどのように音楽を作曲し、新しいAIシステムがそのようなプロセスを模倣するかを説明する。 AIモデルとアルゴリズムがいかにして音楽を生成するかを理解するために、私たちは、音楽生成プロセスに参加するエージェントを探索、分析、記述する。
論文参考訳（メタデータ） (Tue, 25 Oct 2022 11:54:30 GMT)
- 音楽生成のサーベイ
- 生成系が盛り上がるなか、音楽生成も興味深いターゲットだと思う

What Language Model to Train if You Have One Million GPU Hours? [54.3]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。また、多言語モデルの性能と、英語のみとの比較についても検討する。私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 13:43:27 GMT)
- 100万GPU Hoursの予算で最適なモデルを探索した、BLOOM(Big Science Large Open-science Open- Access Multilingual Language Model)の構築プロセスをまとめた論文
- この規模のモデル構築を行う機会があるかは置いておいて検討プロセスがとても参考になる

ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts [20.0]
我々は、公開企業によって運営されている決算書(ECT)を文書として、新たなデータセットを提示する。重要な事実を正確に捉えるために、単純なyet- Effective(ECT-BPS)アプローチも提案する。
論文参考訳（メタデータ） (Wed, 26 Oct 2022 16:21:37 GMT)
- Earnings Call（業績報告）のTranscriptと対応するロイターの記事を用いた要約データセットの提案。圧縮率が103.67と極めて高い。これらデータをうまく要約可能なECT-BPSというモデルも提案されている
  - FinBERTを用いたExtractiveモジュールとT5ベースのParaphasingモジュールの組み合わせ
- リポジトリはrajdeep345/ECTSum: ECTSum Dataset and Codes (github.com)

ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [41.1]
ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 08:21:35 GMT)
- ERNIE-ViLGの更新版、MS-COCO with zero-shot FID でSoTAを主張
- 論文中の画像のレベルも上がっており、非常に競争の激しい分野という感想