一步轻松分离人声和背景声：urv5 & vocal-separate 工具介绍

2024-03-03 10:35#1 标记1

在进行声音训练任务时，需要搜集一定数量的声音样本，比如自己的录音、从影音文件中截取的片段，而这些文件避免不了存在背景噪声或者音乐伴奏等，如果不提前去除，会极大影响训练效果。
有的声音训练项目会自带背景音分离功能，比如 GPT-SoVITS，自带基于uvr5的分离功能，可以提前将声音样本分离为单纯人声和背景声，但更多的则是不附带，需要自行提前处理。
另外在音频转文字任务中，背景噪声或伴奏也会对识别效果产生影响，要获得更精确的效果也需要提前去除音频中的背景伴奏。
使用GPT-SoVITS训练真假难辨的说话声
一键转换视频至任意语言配音与字幕，全免费体验！
推荐2个用于分离人声和背景声的工具
一是 vocal-separate: 基于spleeter 实现的本地离线人声背景音分离工具，windows下有预打包版，解压双击可用，Mac/Linux下需源码部署。中文界面，使用非常简单，支持直接处理视频，速度较快。这是本人开发，原计划用于视频翻译配音项目。

二是 Ultimate Vocal Remover: 这是uvr5的桌面GUI版，Windows下需要安装到C盘下，否则容易出问题，它英文界面，选项较多，操作相对复杂，但功能也更强，效果更好。

vocal-separate 安装和使用
1. Windows上首先去这里下载预打包版，其他系统拉取源码部署。https://github.com/jianchang512/vocal-separate/releases

2. 下载后解压，双击 start.exe ，等待自动打开浏览器页面，如果出现下图类似报错，无需担心，这只是提醒无法GPU加速，不影响使用

启动成功后会打开如下浏览器页面

3. 如上图所示，拖拽或点击上传想分离出单独人声的音频或视频，视频在上传后会自动转为音频。
然后从模型中选择“2stems”，将把上传的文件分离为人声和其他声音2个文件。
当然也可以选择 4stems 和 5stems 这2个模型，它们除了分离出人声外，还会将其他声音细分为“鼓声”“贝斯声”等文件，一般情况下只使用 2stems 即可。

可在网页中试听结果音频，点击下载文件或者直接去分离结果目录下找到分离文件，人声文件名称为 vocals.wav，其他声音文件名为 accompaniment.wav

分离就是这么简单。
Ultimate Vocal Remover 安装和使用
1. 首先去这里 https://github.com/Anjok07/ultimatevocalremovergui/releases/tag/v5.6
下载

windows版也可点此链接直接下载，下载后双击该exe文件，一路next即完成安装
https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_v5.6.0_setup.exe
2. 安装完成后，双击桌面图标启动。

3. 启动后的界面如下图所示，选择要处理的音频文件，并设置输出结果目录，选择要处理的模型、比特率等各种选项，除了“Select Input”和“Select Output” 其他都是非必选，保持默认即可。

“Select Input”：点即它选择要处理的音频文件，
"Select Output"：点击它选择处理后的文件保存到哪里。
“CHOOSE PROCESS MEHTODS”：选择处理方法，默认 MDX-Net，这个效果应该是最好的，保持默认即可。

“CHOOSE MDX-NET MODEL”：上面方法所对应要使用的模型，如果不是“MDX-Net”方法，需要额外下载模型。

“Start Processing”: 选择完毕后的启动执行按钮，点击它开始执行分离操作，等待提示完成。