ChatTTS是一个通过文本合成语音的TTS项目,它最大的特点就是合成效果非常逼真自然。应该是目前最强的开源项目。这应该是大家的共识,所以很快就出现很多扩展项目。
这些扩展项目,使得ChatTTS在功能更加强大,便捷性大大提升。比如可以进行更多参数的控制,挖掘更多声音,优化数字发音,生成长文本语音,抽卡,分角色朗读…
下面整理了五个不错的项目,跟大家分享一下 !
Awesome-ChatTTS
这是一个导航类的项目,据说是官方推荐的ChatTTS 最佳入门指南,整理和汇总了常见问题和相关资源。这个项目主页上不光有导航,还有一个制作的好的WebIU,可以直接拿来使用。
这个网页版程序,在原项目的基础上做了如下优化:
- 使用国内模型下载代码方式,减少了可能出现的模型下载失败的问题。
- 抽离了更多参数,优化版 web-ui 中可以更加方便地进行调整。
- 添加了遗漏的需处理的中文标点字符,修复了生成的语音中可能出现的读出控制单元的问题。
- 增加了多音字的初步处理,主要是“得”和“地”,使生成的语音听起来更加自然流畅。
- 增加了长文本分段功能,分段处理后自动再合并为单个音频文件,避免了过长的文本生成效果失控的问题。
- 增加了 script.py 示例脚本,包含了常见问题中解决方案的说明 。
另一个同名的导航l类项目:
https://github.com/panyanyany/Awesome-ChatTTS
ChatTTS_Speaker
这个项目主要是关注“音色”,或者叫发声人。
用过官方项目的应该知道,默认情况下只有固定的一个声音或者随机的声音。这样用起来就非常局限。
这个项目挖掘了2000个声音,并对声音稳定性进行了打分,做了性别区分,可以在线试听,可以下载PT文件,一个PT文件对应一种音色。
使用这个项目,你就瞬间多了2K的配音人员。
ChatTTS-ui
一个简单的本地网页界面,通过网页使用 ChatTTS,将文字合成为语音,支持中英文、数字混杂,并提供API接口。
其中有一个叫数字混杂的功能很实用,比如遇到如下面这些内容的时候,很多语音合成都会懵逼。
我有12879651325.68元钱[laughlllaughl,占全部幻想的56.2%,我的手机号码是12312345678,[laugh]座机是0532-84752563,现在是2013-5-1,12:14:13 计算1+2=3,[uv_breakj[uv_breakj6*7=42
而这个项目合成的声音,可以用正确的发音读出这些数字。
这个项目还做了一个Windows的一键运行包。
ChatTTS_colab
基于 ChatTTS ,支持音色抽卡、长音频生成和分角色朗读。简单易用,无需复杂安装。
项目特点:
- Colab 一键运行:无需复杂的环境配置,只需点击上方的 Colab 按钮,即可在浏览器中直接运行项目。
- 音色抽卡功能:批量生成多个音色,并可保存自己喜欢的音色。
- 支持生成长音频:适合生成较长的语音内容。
- 字符处理:对数字和朗读错误的标点做了初步处理。
- 分角色朗读功能 :支持对不同角色的文本进行分角色朗读,并支持大模型一键生产脚本。
这个项目提供了Colab和本地版,扩展功能较多,实用性较强!
ChatTTS-Forge
ChatTTS-Forge 是一个围绕 TTS 生成模型 ChatTTS 开发的项目,实现了 API Server 和 基于 Gradio 的 WebUI。
这个项目提供了多种使用方式:
在线体验 | 部署于 HuggingFace 中 | HuggingFace Spaces |
一键启动 | 点击按钮,一键启动 Colab | |
容器部署 | 查看 docker 部分 | Docker |
本地部署 | 查看环境准备部分 | 本地部署 |
项目主页有非常详细的介绍!有兴趣的可以去一下。
我觉得不错的ChatTTS衍生项目都在这里了。这些项目使得这项技术的使用门槛降低了好多,功能也增加了好多。上手也简单了很多,一般来说大部分人都可以搞定。
如果需要对某个项目做更详细的介绍,做详细的教程,可以留言!