VQ-VAE - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]Jukebox: 一种音乐生成模型

我们推出Jukebox，这是一种在原始音频领域生成带人声音乐的模型。我们采用多尺度VQ-VAE（向量量化变分自编码器）压缩原始音频的长上下文为离散编码，并通过自回归Transformer进行建模。研究表明，这种规模化组合模型能生成保真度高且多样化的歌曲，其连贯性可达数分钟。该模型可通过艺术家和流派条件控制音乐与人声风格，并利用未对齐歌词增强演唱可控性。我们公开了数千个未经人工筛选的样本，同时开放模型权重和代码。

由卡汁发布于 2025-03-27 16:04:22 VQ-VAETransformer 模型阅读次数 1101