arXiv – ページ 123 – arXiv最新論文の紹介

Pop2Piano

Pop2Piano : Pop Audio-based Piano Cover Generation [14.9]
本稿では,Pop2Pianoについて紹介する。Pop2Pianoは,ポップミュージックの波形が与えられたピアノカバーを生成するトランスフォーマーネットワークである。私たちの知る限りでは、メロディやコード抽出モジュールを使わずに、ポップオーディオから直接ピアノカバーを生成する最初のモデルです。
論文参考訳（メタデータ） (Wed, 2 Nov 2022 05:42:22 GMT)
- ピアノカバーの自動生成を行うモデルの提案。プロジェクトサイトのサンプルが興味深い
- プロジェクトサイトはPop2Piano (sweetcocoa.github.io)

Dataset Distillation via Factorization

Dataset Distillation via Factorization [58.8]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。 emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文参考訳（メタデータ） (Sun, 30 Oct 2022 08:36:19 GMT)
- データセットDistillationの新たな手法を提案。

Crosslingual Generalization through Multitask Finetuning

Crosslingual Generalization through Multitask Finetuning [80.9]
マルチタスク誘導ファインチューニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。 MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。英語のプロンプトを用いた英語タスクにおける多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文参考訳（メタデータ） (Thu, 3 Nov 2022 13:19:32 GMT)
Multitask prompted ﬁnetuningの多言語への適用について詳細に調べた論文。「We conjecture that the models are learning higher-level capabilities that are both task- and languageagnostic.」は非常に興味深い（と同時に驚き）。
プロジェクトサイトはbigscience-workshop/xmtf: Crosslingual Generalization through Multitask Finetuning (github.com)

UPaintingとeDiffi

UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance [40.5]
我々は,シンプルかつ複雑なシーン画像生成を統一する,シンプルで効果的なアプローチ,すなわちUPaintingを提案する。 UPaintingは、事前訓練された画像テキストマッチングモデルからテキスト条件拡散モデルにクロスモーダルガイダンスを統合する。 UPaintingは、単純なシーンと複雑なシーンの両方において、キャプションの類似性と画像の忠実さという点で、他のモデルよりも大幅に優れています。
論文参考訳（メタデータ） (Mon, 31 Oct 2022 02:33:17 GMT)
Baiduによる品質の高い画像生成モデルの提案、MS-COCO with zero-shot FID ではSoTAとはいかないまでも良いスコア。本当に競争が激しい分野。。。

eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.5]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (Wed, 2 Nov 2022 17:43:04 GMT)
こちらはNVIDIAの成果
プロジェクトサイトはeDiffi: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers (deepimagination.cc)

Deep Generative Models on 3D Representations: A Survey

Deep Generative Models on 3D Representations: A Survey [31.8]
変分オートエンコーダ(VAE)やGAN(Generative Adversarial Network)などの深層生成モデルは、2次元画像合成において大きな進歩を遂げている。本質的に効率的な表現(ピクセルグリッド)を持つ2D画像とは異なり、3Dデータを表現することははるかに多くの課題に直面する可能性がある。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 17:59:50 GMT)
- point cloud、mesh、voxel grid 等をアウトプットとする、3次元データ生成モデルのサーベイ

State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [101.0]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 17:59:53 GMT)

Trustworthy Human Computation: A Survey

Trustworthy Human Computation: A Survey [21.4]
人間計算（Human Computation）はAIのみでは解くのが難しい問題を多くの人間と協力して解くアプローチである。人間計算ではAIと人間の信頼関係を構築することが重要だ。本調査は,信頼性の高い人間計算の実現に向けた基礎研究である。
論文参考訳（メタデータ） (Sat, 22 Oct 2022 01:30:50 GMT)
- Human ComputationとAIの信頼性のサーベイ
- AIの社会実装の上で重要であり、とても勉強になる
  - 信頼性、説明性、いろいろな観点があるが実装するのはとても難しい…

XY-LENT: X-Y bitext enhanced Language ENcodings using Transformers

Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning [99.4]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文参考訳（メタデータ） (Wed, 26 Oct 2022 17:16:52 GMT)
- ｍBERTやXLM-Rより優れた多言語モデルの提案

Dial2vec

Dial2vec: Self-Guided Contrastive Learning of Unsupervised Dialogue Embeddings [41.8]
教師なし対話の埋め込みを学習するタスクについて紹介する。事前学習された単語や文の埋め込みや、事前学習された言語モデルによるエンコーディングといったトライアル的なアプローチは、実現可能であることが示されている。本稿では,Dial2vecという自己指導型コントラスト学習手法を提案する。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 11:14:06 GMT)
- 2vec系対話版、評価のために様々なデータをまとめたベンチマークを構築している
- ソースなどはAlibabaResearch/DAMO-ConvAI: DAMO ConvAI: The official repository which contains the codebase for Alibaba DAMO Conversational AI. (github.com)で公開予定とのこと

A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives

A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives [10.3]
人間がどのように音楽を作曲し、新しいAIシステムがそのようなプロセスを模倣するかを説明する。 AIモデルとアルゴリズムがいかにして音楽を生成するかを理解するために、私たちは、音楽生成プロセスに参加するエージェントを探索、分析、記述する。
論文参考訳（メタデータ） (Tue, 25 Oct 2022 11:54:30 GMT)
- 音楽生成のサーベイ
- 生成系が盛り上がるなか、音楽生成も興味深いターゲットだと思う

What Language Model to Train if You Have One Million GPU Hours

What Language Model to Train if You Have One Million GPU Hours? [54.3]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。また、多言語モデルの性能と、英語のみとの比較についても検討する。私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 13:43:27 GMT)
- 100万GPU Hoursの予算で最適なモデルを探索した、BLOOM(Big Science Large Open-science Open- Access Multilingual Language Model)の構築プロセスをまとめた論文
- この規模のモデル構築を行う機会があるかは置いておいて検討プロセスがとても参考になる

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31