BertVits语音模型训练教程

由于本地机器配置参数各不相同, 即便是用整合包也会有少数人出现问题, 因此本次教程针对云端训练

云服务器平台选择AutoDL, 一个模型的训练时间大约在1-2个小时。

提前准备好用于训练的音频素材, 对音频的要求：无背景音, 时长推荐30分钟以上。

在此页面, 先择4090D显卡, 选择Bert-VITS-2/v8.5的社区镜像, 创建镜像。

等待镜像创建完毕, 点击JupyterLab, 进入笔记本界面。

下拉到准备部分, 选中第一个格子, 点击运行, 等待当前格子运行完毕。

出现[*]号表示当前格子正在运行, 出现序号说明已执行完毕。(例如以下图片所示, 当前格子正在运行中) 图片说明

此时将音频素材拖入 autodl-tmp/workdir/audio-slicer/input/ 文件夹中, 注意等待下方进度条上传完成。

修改模型名称

依次执行格子即可完成训练, 只需要特别注意以下几个格子。

使用达摩院的数据标注, 在第一行开头加上#, 第二行开头去掉#号, 点击执行,

等待所有的音频被识别成文字, 执行这一步需要稍作等待。

恭喜你, 点击执行这一步, 就开始训练了！后面的格子都不用再执行了！

保存的模型存在放 autodl-tmp/workdir/Bert-VITS2/Data/模型名/models/, 只需要下载G_xx.pth和config.json文件到本地即可。

训练完毕后记得关机, 仅关闭笔记本页面仍然在计费。

G_xx.pth 和 config.json 一起下载放入软件中即可进行使用。
一小时的素材建议训练到G_10000 以上。当然并不是训练迭代的次数越高越好, 所以可以反复下载模型到本地试听效果, 最后选择最满意的模型。

至此, 完结撒花