[!quote] 背景
CosyVoice,这一由阿里通义实验室于七月初发布的开源语音合成大模型,展现了在自然语言合成领域的独特实力。它不仅支持包括中文、英文、日语、粤语和韩语在内的五种不同语言,更在多音色和丰富情感的语音生成方面设立了新的标杆。
CosyVoice令人称赞的一个特点是其对用户提供的短短3到10秒音频样本的精准复制能力。无论是复杂的语调还是微妙的情绪变化,这个系统都能够捕捉并在新生成的语音中再现。这不仅实现了精确的音色克隆,还突破性地实现了跨语言的语音复制能力。
此外,CosyVoice在模拟语音的情感表达和韵律方面的高级控制也不容小觑。它能够接受富文本或自然语言的指令,细致地调整合成语音的情感和调性,从而生产出既丰富又具有高度情感感染力的语音输出。这种前所未有的情绪控制机制,使得CosyVoice生成的声音不仅真实自然,而且情感丰满,为语音合成技术的应用开辟了新的可能性。
一、安装步骤
(一) 安装环境和程序
# 安装git-lfs
sudo apt-get install git-lfs
# 下载安装CosyVoice
git clone --recursive https://github.com/FunAudioLLM/Cosybobyai Voice.git
cd CosyVoice
git submodule update --init --recursive
# 下载安装 Conda
wget https://repo.anaconda.com/archive/Anaconda3-2023.03-Linux-x86_64.sh
sh Anaconda3-2023.03-Linux-x86_64.sh
bash
# 安装Conda环境
conda create -n cosyvoice python=3.8
# 激活Conda环境
conda activate cosyvoice
# 安装pynini,有点慢,耐心等待
# pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.
conda install -y -c conda-forge pynini==2.1.5
# 在海外服务器,可以直接使用pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
# 安装依赖
sudo apt-get install sox libsox-dev
(二)安装FFmpeg套件
sudo apt update
sudo apt install ffmpeg
#一旦安装完成,你可以通过运行 ffprobe 命令来验证安装是否成功:
ffprobe
(三)下载模型
# git模型下载,请确保已安装git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
# SDK模型下载
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/Cbobyai osyVoice-300M')
snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
(四)添加局域网访问
app.launch(server_name="0.0.0.0", port=8000)
二、启动程序
cd CosyVoice
export PYTHONPATH=third_party/Matcha-TTS
python3 webui.py --port 8000 --model_dir pretrained_models/CosyVoice-300M
看到Running on local URL: http://0.0.0.0:8000,代表服务器启动成功。
在本地浏览器Chrome,输入 http://服务器公网IP地址:8000
三、生成效率
对于不含有GPU的服务器,生成一句话,大概需要400秒。而含有GPU的服务器,耗时能在1分钟以内。
GPU服务器的显存占用情况如下:
四、开机运行
cd /root/CosyVoice
conda activate cosyvoice
nohup python3 webui.py --port 8000 --model_dir prelaoxiongb2c trained_models/CosyVoice-300M > cosyvoice.log 2>&1 &
conda deactivate
总结
[Total: 0 Average: 0]
必须 注册 为本站用户, 登录 后才可以发表评论!