AIGC 实战(环境篇)- Debian安装Chattts

环境

conda 环境的创建、查看、删除,请查看:[[coda创建、查看、删除虚拟环境]]

简介

ChatTTS 是一款专门为对话场景(例如 LLM 助手)设计的文本转语音模型。

支持的语种

  •  英语
  •  中文
  •  敬请期待...

亮点

你可以参考 Bilibili 上的这个视频,了解本项目的详细情况。

  1. 对话式 TTS: ChatTTS 针对对话式任务进行了优化,能够实现自然且富有表现力的合成语音。它支持多个说话者,便于生成互动式对话。
  2. 精细的控制: 该模型可以预测和控制精细的韵律特征,包括笑声、停顿和插入语。
  3. 更好的韵律: ChatTTS 在韵律方面超越了大多数开源 TTS 模型。我们提供预训练模型以支持进一步的研究和开发。

数据集和模型

  • 主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。
  • HuggingFace 上的开源版本是一个在 40,000 小时数据上进行无监督微调的预训练模型。

路线图

安装

克隆仓库

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

安装依赖

1. 直接安装

pip install --upgrade -r requirements.txt

2. 使用 conda 安装

conda create -n chattts
conda activate chattts
pip install -r requirements.txt

可选 : 如果使用 NVIDIA GPU(仅限 Linux),可安装 TransformerEngine。

安装过程可能耗时很长。

TransformerEngine 的适配目前正在开发中,运行时可能会遇到较多问题。仅推荐出于开发目的安装。

pip install git+https://github.com/NVIDIA/TransformerEngine.git@stable

可选 : 安装 FlashAttention-2 (主要适用于 NVIDIA GPU)

支持设备列表详见 Hugging Face Doc.

pip install flash-attn --no-build-isolation

快速启动

确保在执行以下命令时,处于项目根目录下。

1. WebUI 可视化界面

python examples/web/webui.py

2. 命令行交互

生成的音频将保存至 ./output_audio_n.mp3

python examples/cmd/run.py "Your text 1." "Your text 2."

开机启动

参考:[[Debian 开机启动设置]]
注意: 各种工具,如stable diffusion、sdxl等部署时,需要在开机启动设置中,切换 conda 虚拟环境

问题记录

TransformerEngine安装报错: error subprocess-exited-with-error

解决方法:
- 网络问题,尝试更换机场等
- 执行 pip install dlib
- 执行 pip install --upgrade setuptools

参考

Debian GPU环境设置:[[AIGC 实战(环境篇) - EXSI 8.0 Debian安装RTX3060显卡驱动]]
Debian python等安装:[[AIGC 实战(环境篇) - Python、Anaconda、PyTorch安装]]
Debian 开机启动设置:[[Debian 开机启动设置]]