コンテンツへスキップ
- Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning [99.4]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (Wed, 26 Oct 2022 17:16:52 GMT)- mBERTやXLM-Rより優れた多言語モデルの提案
- Dial2vec: Self-Guided Contrastive Learning of Unsupervised Dialogue Embeddings [41.8]
教師なし対話の埋め込みを学習するタスクについて紹介する。 事前学習された単語や文の埋め込みや、事前学習された言語モデルによるエンコーディングといったトライアル的なアプローチは、実現可能であることが示されている。 本稿では,Dial2vecという自己指導型コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (Thu, 27 Oct 2022 11:14:06 GMT)
- A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives [10.3]
人間がどのように音楽を作曲し、新しいAIシステムがそのようなプロセスを模倣するかを説明する。 AIモデルとアルゴリズムがいかにして音楽を生成するかを理解するために、私たちは、音楽生成プロセスに参加するエージェントを探索、分析、記述する。
論文 参考訳(メタデータ) (Tue, 25 Oct 2022 11:54:30 GMT)- 音楽生成のサーベイ
- 生成系が盛り上がるなか、音楽生成も興味深いターゲットだと思う
- What Language Model to Train if You Have One Million GPU Hours? [54.3]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。 また、多言語モデルの性能と、英語のみとの比較についても検討する。 私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (Thu, 27 Oct 2022 13:43:27 GMT)- 100万GPU Hoursの予算で最適なモデルを探索した、BLOOM(Big Science Large Open-science Open- Access Multilingual Language Model)の構築プロセスをまとめた論文
- この規模のモデル構築を行う機会があるかは置いておいて検討プロセスがとても参考になる
- ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts [20.0]
我々は、公開企業によって運営されている決算書(ECT)を文書として、新たなデータセットを提示する。 重要な事実を正確に捉えるために、単純なyet- Effective(ECT-BPS)アプローチも提案する。
論文 参考訳(メタデータ) (Wed, 26 Oct 2022 16:21:37 GMT)
- ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [41.1]
ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。 シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。 画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (Thu, 27 Oct 2022 08:21:35 GMT)- ERNIE-ViLGの更新版、MS-COCO with zero-shot FID でSoTAを主張
- 論文中の画像のレベルも上がっており、非常に競争の激しい分野という感想
- DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models [14.3]
DiffusionDBは、最初の大規模なテキストと画像のプロンプトデータセットである。 データセット内のプロンプトを分析し、これらのプロンプトの重要な特性について議論する。 この人間の活動するデータセットの、前例のないスケールと多様性は、エキサイティングな研究機会を提供する。
論文 参考訳(メタデータ) (Wed, 26 Oct 2022 17:54:20 GMT)- 200万件のプロンプト・画像のペア。Stable Diffusion discord serverから取得されたとのこと。ライセンスはCC-0。
- 画像生成のプロンプトは(生成モデルが用いたデータに共通部分が多いこともあって)使いまわせる要素がある。傾向分析には有用そう。
- FCM: Forgetful Causal Masking Makes Causal Language Models Better Zero-Shot Learners [139.6]
本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。 我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。 実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
論文 参考訳(メタデータ) (Mon, 24 Oct 2022 17:46:57 GMT)- インプットするトークン列の一部をマスクするForgetful Causal Masking (FCM)を提案、計算量を増やさずにZero/Few shot能力を向上できたとの報告
- Breaking Bad: A Dataset for Geometric Fracture and Reassembly [47.2]
本稿では,破壊対象の大規模データセットであるBreaking Badを紹介する。 私たちのデータセットは、1万のベースモデルからシミュレートされた100万以上の破砕物で構成されています。
論文 参考訳(メタデータ) (Thu, 20 Oct 2022 17:57:19 GMT)
- Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots [103.5]
Doc2Botは、ユーザーが会話を通じて情報を求めるのを助けるマシンを構築するためのデータセットである。 われわれのデータセットには、5つのドメインの中国の文書に基づく10万回以上のターンが含まれている。
論文 参考訳(メタデータ) (Thu, 20 Oct 2022 07:33:05 GMT)