内核AI
  1. 语音模型训练教程
内核AI
  • 内核AI全景介绍
  • 安装教程
  • 软件下载
    • 内核AI直播辅助工具
    • 声音服务1:BertVits2 (任选一个)
    • 声音服务2:GPT-SoVITS2 (任选一个)
    • 数字人服务(human)
  • 语音模型训练教程
    • BertVits语音模型训练教程
    • GPT-SoVITS2 语音模型训练教程
  • 常见问题
    • GPT模型怎么查找三个参数
    • 为什么获取不到数字人模型列表
    • 自己训练的Bertvits模型找不到
    • 为什么我自己训练的Bertvits模型占用的内存会比提供的模型高很多?
    • 登录没有反应
    • 声音服务显示 "...phrases_dict.txt'
    • 版本更新后, 每次都需要重新设置怎么办
    • 各平台直播间公屏抓取使用帮助
  1. 语音模型训练教程

BertVits语音模型训练教程

云端平台#

由于本地机器配置参数各不相同, 即便是用整合包也会有少数人出现问题, 因此本次教程针对云端训练
云服务器平台选择AutoDL, 一个模型的训练时间大约在1-2个小时。

音频素材要求#

提前准备好用于训练的音频素材, 对音频的要求:无背景音, 时长推荐30分钟以上。

使用镜像开机#

首先打开地址: https://www.autodl.com/create?image=fishaudio/Bert-VITS2/Bert-VITS-2:v8.5
在此页面, 先择4090D显卡, 选择Bert-VITS-2/v8.5的社区镜像, 创建镜像。
jingxiang.png
等待镜像创建完毕, 点击JupyterLab, 进入笔记本界面。
xiazai.png

训练操作过程#

1.
下拉到准备部分, 选中第一个格子, 点击运行, 等待当前格子运行完毕。
xuanze.png
出现[*]号表示当前格子正在运行, 出现序号说明已执行完毕。(例如以下图片所示, 当前格子正在运行中) 图片说明
2.
此时将音频素材拖入 autodl-tmp/workdir/audio-slicer/input/ 文件夹中, 注意等待下方进度条上传完成。
input.png
3.
修改模型名称
name.png
4.
依次执行格子即可完成训练, 只需要特别注意以下几个格子。
1.
使用达摩院的数据标注, 在第一行开头加上#, 第二行开头去掉#号, 点击执行,
jing.png
等待所有的音频被识别成文字, 执行这一步需要稍作等待。
damo.png
2.
恭喜你, 点击执行这一步, 就开始训练了! 后面的格子都不用再执行了!
train.png

模型存放位置#

保存的模型存在放 autodl-tmp/workdir/Bert-VITS2/Data/模型名/models/, 只需要下载G_xx.pth和config.json文件到本地即可。
model.png

完成关机#

训练完毕后记得关机, 仅关闭笔记本页面仍然在计费。
end.png

温馨提示#

G_xx.pth 和 config.json 一起下载放入软件中即可进行使用。
一小时的素材建议训练到G_10000 以上。当然并不是训练迭代的次数越高越好, 所以可以反复下载模型到本地试听效果, 最后选择最满意的模型。
至此, 完结撒花
修改于 2025-06-23 10:24:13
上一页
数字人服务(human)
下一页
GPT-SoVITS2 语音模型训练教程
Built with