语音转语音技术之Retrieval-based-Voice-Conversion-WebUI

0 / 1421

什么是语音转语音技术?

图片[1]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog图片[2]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog图片[3]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog图片[4]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
如果你不知道这是什么,它基本上允许你把一种声音变成另一种声音。有点像有一个人工智能变声器。最重要的是,你所需要的一切现在都在一个应用程序中,而且它的训练也非常快。这就是,基于检索的语音转换web用户界面。

图片[5]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
完全不用担心太多。你可能知道,人工智能唱歌的声音转换可能是一项任务,因为在你创建你的杰作视频之前,有多个阶段涉及到约翰-塞纳跳舞,同时听亚伯拉罕-林肯唱最新的K-pop歌曲。

图片[6]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
首先,你需要收集一堆语音样本,处理它们,训练一个模型,将人声与你要改变的音乐轨道分开,如果你还没有分开的话,在这些人声上运行你的新人工智能模型,最后将它们与音乐混合在一起。

图片[7]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
值得庆幸的是,现在所有这些都可以通过这个网络界面完成,质量如何呢?好吧,让我们来听一听。我使用了Pixabay上的一首例子,就是这样,这意味着在不到30分钟的训练时间里,我就可以成为唱歌的人。所以,让我们快速听一下原声片段,这样我们就知道我要转换什么了。然后现在这个声音被这个AI改变了,听起来像我。想自己做这个吗?那就跟着我,我将向你展示具体的方法。与任何Python软件一样,安装绝对是轻而易举的,最重要的是,它可以在一系列的操作系统上工作,甚至是微软的Windows。这里有一个小表,上面有一些要求。

图片[8]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
如果你使用微软的Windows,如果你正在使用,很抱歉,我确实希望事情变得更好,你可以做的是下载并安装7-zip,

图片[9]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
从Hugging Face页面下载rvc-beta 7zip文件,

https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main

图片[10]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
解压,然后使用go-web.bat。正常的安装也可以像他们在这里做的那样,

图片[11]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
尽管你可能想下载7-zip档案,因为那里面有所有的模型。就个人而言,我使用Anaconda的虚拟Python 3.10环境进行正常安装,因为我喜欢简单的应用管理。如果你喜欢使用Google Colab,也有一个Google Colab可用。

图片[12]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
因此,无论你选择何种安装方法,你现在应该已经有了你的网络界面并开始运行。

图片[13]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
让我们潜入这个迷人的语音转语音技术的世界,看看我们能创造出什么惊人的东西。如果你已经有一个模型,你可以直接进行模型推理,或者像我一样,你可以从训练一个模型开始。如果你没有,还有训练标签。然而,在我们深入研究训练过程之前,我们先快速浏览一下这五个标签。所以首先,你已经有了模型推理,你已经有了伴奏和声乐的分离、训练,检查点处理,所以你可以把检查点混在一起,导出ONNX,这一点我从来没有用过,还有一个FAQ也是如此。首先,如前所述,我们将从训练标签开始,因为这是你将创建你的第一个语音模型的地方。第一步,对于实验名称,只需输入你想给你的项目的名称。所以你可以这样做,例如,Nerdy,因为那是我。至于采样率,我个人更喜欢总是使用40k,而且我总是将他设置为true,因为这似乎是最好的。模型结构,你可以选择版本1或版本2。就个人而言,我更喜欢版本2。线程数,我想,可能会自动选择。

图片[14]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog图片[15]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
恭喜你,你现在已经完成了第一步。下一步是第2A步。

图片[16]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
它在这里问的第一件事是训练目录的路径。如果你不熟悉计算机上的文件和目录等术语,这部分可能会很令人困惑。你可以把目录看作是电脑里的盒子,在这个例子中,你可以用它来组织你的文件。我把它们放到训练目录中。所以,这就是我的路径,traing/nerd

图片[17]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
如果我们快速看一下这个目录,你可以看到,它绝对充满了音频文件。

图片[18]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
如果你的名字不同,你可能希望使用其他东西,但这完全取决于你。尽管我已经把我的样本分成了大约250段,但实际上你不需要太担心,因为这个程序会自动处理长的音频并进行相应的分割。一般来说,总的音频要求在10到50分钟之间。任何人声都可以,唱歌、说话都可以,只要确保背景中没有任何音乐。应该全部是一个人,只有人声好了,现在你已经把所有的样本放在目录里了,你可以直接点击处理数据。

图片[19]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
这将需要几秒钟,为你处理所有的样本。

图片[20]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
现在你已经准备好进入第2B步。

图片[21]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
如果你有多块显卡,那么你可以把它们放在这里,但我只有一块GPU,所以我只是保持原样。默认值绝对没问题。接下来,您可以进行音高提取,它有三个选项。就个人而言,我总是选择harvest。pm速度快但质量低,dio稍慢但质量好,而harvest是最慢的但质量最好。因此,在那里选择了harvest,我只是点击特征提取。

图片[22]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
这将花几秒钟时间,完成这个任务。

第三步。

图片[23]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
好了,在这里,大多数情况下,你可以继续,点击那个一键训练按钮。

图片[24]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
大约10分钟后回来,你就会有一个模型。然而,如果你像我一样,确实喜欢改变一些东西,你在那里有一些选项,用于保存完整模型的频率、总的历时数、GPU批次大小,以及一些保存的选项。就我个人而言,对于第二版的模型,我喜欢的设置方式是将其设置为10。我做的总训练历时为200,这是你需要的最大的历时。由于我有一个非常大的GPU,我有24G的VRAM,批次大小为40,因为这是我的GPU可以处理的最大数量。

图片[25]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” |  Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
我喜欢点击是,只保存最新的检查点。我把缓存全部放在no上,我说yes来保存小的成品模型。

![图片[26]-用AI翻唱歌曲?之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog](http://aiqianji.oss-cn-shenzhen.aliyuncs.com/images/2023/08/03/08e07b94c30143752a806aa32343