语音转语音技术之Retrieval-based-Voice-Conversion-WebUI

openoker 2023-08-03 19:47:25 AIGC 音乐生成收藏

0 / 2514

什么是语音转语音技术？

图片[1]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog 图片[2]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog 图片[3]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog 图片[4]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
如果你不知道这是什么，它基本上允许你把一种声音变成另一种声音。有点像有一个人工智能变声器。最重要的是，你所需要的一切现在都在一个应用程序中，而且它的训练也非常快。这就是，基于检索的语音转换web用户界面。

图片[5]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
完全不用担心太多。你可能知道，人工智能唱歌的声音转换可能是一项任务，因为在你创建你的杰作视频之前，有多个阶段涉及到约翰-塞纳跳舞，同时听亚伯拉罕-林肯唱最新的K-pop歌曲。

图片[6]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
首先，你需要收集一堆语音样本，处理它们，训练一个模型，将人声与你要改变的音乐轨道分开，如果你还没有分开的话，在这些人声上运行你的新人工智能模型，最后将它们与音乐混合在一起。

图片[7]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
值得庆幸的是，现在所有这些都可以通过这个网络界面完成，质量如何呢？好吧，让我们来听一听。我使用了Pixabay上的一首例子，就是这样，这意味着在不到30分钟的训练时间里，我就可以成为唱歌的人。所以，让我们快速听一下原声片段，这样我们就知道我要转换什么了。然后现在这个声音被这个AI改变了，听起来像我。想自己做这个吗？那就跟着我，我将向你展示具体的方法。与任何Python软件一样，安装绝对是轻而易举的，最重要的是，它可以在一系列的操作系统上工作，甚至是微软的Windows。这里有一个小表，上面有一些要求。

图片[8]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
如果你使用微软的Windows，如果你正在使用，很抱歉，我确实希望事情变得更好，你可以做的是下载并安装7-zip，

图片[9]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
从Hugging Face页面下载rvc-beta 7zip文件，

https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main

图片[10]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
解压，然后使用go-web.bat。正常的安装也可以像他们在这里做的那样，

图片[11]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
尽管你可能想下载7-zip档案，因为那里面有所有的模型。就个人而言，我使用Anaconda的虚拟Python 3.10环境进行正常安装，因为我喜欢简单的应用管理。如果你喜欢使用Google Colab，也有一个Google Colab可用。

图片[12]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
因此，无论你选择何种安装方法，你现在应该已经有了你的网络界面并开始运行。

图片[13]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
让我们潜入这个迷人的语音转语音技术的世界，看看我们能创造出什么惊人的东西。如果你已经有一个模型，你可以直接进行模型推理，或者像我一样，你可以从训练一个模型开始。如果你没有，还有训练标签。然而，在我们深入研究训练过程之前，我们先快速浏览一下这五个标签。所以首先，你已经有了模型推理，你已经有了伴奏和声乐的分离、训练，检查点处理，所以你可以把检查点混在一起，导出ONNX，这一点我从来没有用过，还有一个FAQ也是如此。首先，如前所述，我们将从训练标签开始，因为这是你将创建你的第一个语音模型的地方。第一步，对于实验名称，只需输入你想给你的项目的名称。所以你可以这样做，例如，Nerdy，因为那是我。至于采样率，我个人更喜欢总是使用40k，而且我总是将他设置为true，因为这似乎是最好的。模型结构，你可以选择版本1或版本2。就个人而言，我更喜欢版本2。线程数，我想，可能会自动选择。

图片[14]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog 图片[15]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
恭喜你，你现在已经完成了第一步。下一步是第2A步。

图片[16]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
它在这里问的第一件事是训练目录的路径。如果你不熟悉计算机上的文件和目录等术语，这部分可能会很令人困惑。你可以把目录看作是电脑里的盒子，在这个例子中，你可以用它来组织你的文件。我把它们放到训练目录中。所以，这就是我的路径，traing/nerd

图片[17]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
如果我们快速看一下这个目录，你可以看到，它绝对充满了音频文件。

图片[18]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
如果你的名字不同，你可能希望使用其他东西，但这完全取决于你。尽管我已经把我的样本分成了大约250段，但实际上你不需要太担心，因为这个程序会自动处理长的音频并进行相应的分割。一般来说，总的音频要求在10到50分钟之间。任何人声都可以，唱歌、说话都可以，只要确保背景中没有任何音乐。应该全部是一个人，只有人声好了，现在你已经把所有的样本放在目录里了，你可以直接点击处理数据。

图片[19]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
这将需要几秒钟，为你处理所有的样本。

图片[20]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
现在你已经准备好进入第2B步。

图片[21]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
如果你有多块显卡，那么你可以把它们放在这里，但我只有一块GPU，所以我只是保持原样。默认值绝对没问题。接下来，您可以进行音高提取，它有三个选项。就个人而言，我总是选择harvest。pm速度快但质量低，dio稍慢但质量好，而harvest是最慢的但质量最好。因此，在那里选择了harvest，我只是点击特征提取。

图片[22]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
这将花几秒钟时间，完成这个任务。

第三步。

图片[23]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
好了，在这里，大多数情况下，你可以继续，点击那个一键训练按钮。

图片[24]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
大约10分钟后回来，你就会有一个模型。然而，如果你像我一样，确实喜欢改变一些东西，你在那里有一些选项，用于保存完整模型的频率、总的历时数、GPU批次大小，以及一些保存的选项。就我个人而言，对于第二版的模型，我喜欢的设置方式是将其设置为10。我做的总训练历时为200，这是你需要的最大的历时。由于我有一个非常大的GPU，我有24G的VRAM，批次大小为40，因为这是我的GPU可以处理的最大数量。

图片[25]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
我喜欢点击是，只保存最新的检查点。我把缓存全部放在no上，我说yes来保存小的成品模型。

图片[26]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
因此，在你通过一键式训练进行模型训练时，我建议你也去看一下常见问题标签。

图片[27]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
这里有相当多的信息，特别有用的是问题9和问题10。

图片[28]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
总共多少个 epochs 是最佳的，需要多少训练集的时间。

现在你已经有了你的第一个语音模型，现在是时候做AI语音转语音的事情了。如果你已经有了你想转换的声音，你可以直接跳到模型推理。

图片[29]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
但是，如果你想做的事情是改变一首歌曲的歌手，而你又没有的人声素材，就像我在这里做的那样，那么你首先需要把这些人声从背景音乐中分离出来，这就是分离标签的用武之地。

图片[30]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
再一次，那些文件和目录开始发挥作用，因为你需要知道你的音乐文件保存在哪里。

图片[31]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
第一个方框是如果你想从一个给定的目录中转换多个文件，因为我倾向于一次只做一个，我删除这个，然后用下面的方框代替。模型选择有两个选项，就像上面说的那样，HP2用于没有和声的输入，或者如果有和声且提取的人声不需要和声，则使用HP5。

图片[32]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
基本上，如果你不确定，都用，听一下输出，看看哪个最适合你。在我的例子中，我打算在这里使用HP2。

默认情况下，输出会进入OPT目录，所以如果你愿意，可以随意改变输出路径。当你准备好了，按下巨大的橙色转换按钮，你就可以把人声从音乐中分离出来了，让我们快速听一下。

图片[33]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
当然，这里有几秒钟的沉默。好了。总之，这做得很好。我们已经得到了人声，没有音乐，即使声音里有一点回声或其他东西。

图片[34]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
好了，现在我们准备好了，可以进行推理了。

图片[35]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
这一页看起来确实很大，但实际上它是两个在一起的东西。上半部分是单声道转换，那里也有一个批处理的。因此，我将只是通过这一个。批处理基本上是一样的，但你一次要一次加载。同样，这里的一切都很简单。按下那个巨大的刷新按钮，然后你应该看到你的选项出现在这个小下拉中。

图片[36]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
我的列表绝对是巨大的，因为所有的女孩都会同意，但你第一次可能只有一个选项在那里。

图片[37]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
所以选择那个。我打算选那个，因为那是我训练有素的声音。接下来，你要选择一个音高，就像上面说的那样。对于从低到高的转换，用+12。如果差不多，就用0。

图片[38]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
而对于高声到低声的转换，用-12。在这种情况下，源声音是相当高的。我的声音有点低，所以我要用-12。再一次，那些文件和目录在这里发挥了作用。所以把你的人声的路径放进去。如果你做了那个默认的声音分离，那么你的OPT目录里就会有两个文件。你要的是开始人声的那个。所以在我的OPT目录中，有那个WAV文件的长名字，就是以人声开头的那个。对于音高提取，也是如此，pm是快速的，harvest是最佳的。所以我喜欢选择harvest。除了这个索引的路径，其他的我都保留在默认状态，这个路径应该有一个下拉菜单。

图片[39]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
这里有一个我想使用的，因为它与那个推理声音相匹配。好了，现在你可以继续，点击那个非常小的转换按钮，在短短的几秒钟内，你应该有你的输出。

图片[40]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
就在那里。对，就在那里。

图片[41]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
这可真够酷的。这是相当酷的。这就是我。现在你可以右键点击它，将音频保存为。

图片[42]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
我也要把它放在我的OPT目录里。我在这里使用Audacity。

图片[43]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog
我已经有了器乐，所以我只需把另一个声音拖进来，然后我可以点击文件，导出为任何我想要的，它将把这两个声音混合在一起。

图片[44]-用AI翻唱歌曲？之前火爆全网的“AI孙燕姿” | Retrieval-based-Voice-Conversion-WebUI-FancyPig's blog

原文地址

阅读全文