目录
环境
conda 环境的创建、查看、删除,请查看:[[coda创建、查看、删除虚拟环境]]
简介
ChatTTS 是一款专门为对话场景(例如 LLM 助手)设计的文本转语音模型。
支持的语种
- 英语
- 中文
- 敬请期待…
亮点
你可以参考 Bilibili 上的这个视频,了解本项目的详细情况。
- 对话式 TTS: ChatTTS 针对对话式任务进行了优化,能够实现自然且富有表现力的合成语音。它支持多个说话者,便于生成互动式对话。
- 精细的控制: 该模型可以预测和控制精细的韵律特征,包括笑声、停顿和插入语。
- 更好的韵律: ChatTTS 在韵律方面超越了大多数开源 TTS 模型。我们提供预训练模型以支持进一步的研究和开发。
数据集和模型
- 主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。
- HuggingFace 上的开源版本是一个在 40,000 小时数据上进行无监督微调的预训练模型。
路线图
- 开源 4 万小时基础模型和 spk_stats 文件。
- 支持流式语音输出。
- 开源具有多情感控制功能的 4 万小时版本。
- ChatTTS.cpp (欢迎在 2noise 组织中新建仓库)。
- Github:ChatTTS/docs/cn/README.md at main · 2noise/ChatTTS · GitHub
安装
克隆仓库
git clone https://github.com/2noise/ChatTTS
cd ChatTTS
安装依赖
1. 直接安装
pip install --upgrade -r requirements.txt
2. 使用 conda 安装
conda create -n chattts
conda activate chattts
pip install -r requirements.txt
可选 : 如果使用 NVIDIA GPU(仅限 Linux),可安装 TransformerEngine。
安装过程可能耗时很长。
TransformerEngine 的适配目前正在开发中,运行时可能会遇到较多问题。仅推荐出于开发目的安装。
pip install git+https://github.com/NVIDIA/TransformerEngine.git@stable
可选 : 安装 FlashAttention-2 (主要适用于 NVIDIA GPU)
支持设备列表详见 Hugging Face Doc.
pip install flash-attn --no-build-isolation
快速启动
确保在执行以下命令时,处于项目根目录下。
1. WebUI 可视化界面
python examples/web/webui.py
2. 命令行交互
生成的音频将保存至
./output_audio_n.mp3
python examples/cmd/run.py "Your text 1." "Your text 2."
开机启动
参考:[[Debian 开机启动设置]]
注意: 各种工具,如stable diffusion、sdxl等部署时,需要在开机启动设置中,切换 conda 虚拟环境
问题记录
TransformerEngine安装报错: error subprocess-exited-with-error
解决方法:
– 网络问题,尝试更换机场等
– 执行 pip install dlib
– 执行 pip install --upgrade setuptools
参考
Debian GPU环境设置:[[AIGC 实战(环境篇) – EXSI 8.0 Debian安装RTX3060显卡驱动]]
Debian python等安装:[[AIGC 实战(环境篇) – Python、Anaconda、PyTorch安装]]
Debian 开机启动设置:[[Debian 开机启动设置]]