GPT-SoVITS 是一款强大的支持少量语音转换、文本到语音
据开发者及各大博主测验,仅需提供 5 秒语音样本即可体验达到 80%~95% 像的声音克隆。若提供 1 分钟语音样本可以逼近真人的效果,且训练出高质量的 TTS 模型!
功能:
- 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
-
少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
-
跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语、韩语、粤语和中文。
-
WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。
一、安装
conda crlaoxiongb2c eate -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt
pip install --no-cache-dir -r requirements.txt
# 如果你需要中文自动语音识别(由FunASR支持),请安装:
pip install modelscope torchaudio sentencepiece funasr
bash install.sh
安装 FFmpeg:
conda install ffmpeg
sudo apt install ffmpeg
sudo apt install bobyai libsox-dev
conda install -c conda-forge 'ffmpeg<7'
二、预训练模型
从 GPT-SoVITS Models 下载预训练模型,并将它们放置在 GPT_SoVITS\pretrained_models 中。
对于中文自动语音识别(另外),从 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下载模型,并将它们放置在 tools/damo_asr/models 中。
对于UVR5(人声/伴奏分离和混响移除,另外),从 UVR5 Weights 下载模型,并将它们放置在 tools/uvr5/uvr5_weights 中。
三、数据集格式
文本到语音(TTS)注释 .list 文件格式:
vocal_path|speaker_name|language|text
语言字典:
‘zh’: Chinese
‘ja’: Japanese
‘en’: English
示例:
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
四、微调与推理
(一)打开WebUI
1. 整合包用户
双击go-webui.bat
或者使用go-webui.ps1
若想使用V1,则双击go-webui-v1.bat
或者使用go-webui-v1.ps1
2. 其他
python webui.py <language(optional)>
若想使用V1,则
python webui.py v1 <language(optional)>
或者在webUI内动态切换
(二)微调
1. 现已支持自动填充路径
1.填入训练音频路径
2.切割音频
3.进行降噪(可选)
4.进行ASR
5.校对标注
6.前往下一个窗口,点击训练
(三)打开推理WebUI
1. 整合包用户
双击 go-webui.bat
或者使用 go-webui.ps1
,然后在 1-GPT-SoVITS-TTS/1C-推理
中打开推理webUI
2. 其他
python GPT_SoVITS/inference_webui.py <language(optional)>
或者
python webui.py
然后在 1-GPT-SoVITS-TTS/1C-推理
中打开推理webUI
五、开机启动
# 运行 GPT-SoVITS
cd /root/GPT-SoVITS/
conda activate GPTSoVits
nohup python webui.py zh > SoVITS.log 2>&1 &
conda deactivate
必须 注册 为本站用户, 登录 后才可以发表评论!