[!quote] 背景

CosyVoice，这一由阿里通义实验室于七月初发布的开源语音合成大模型，展现了在自然语言合成领域的独特实力。它不仅支持包括中文、英文、日语、粤语和韩语在内的五种不同语言，更在多音色和丰富情感的语音生成方面设立了新的标杆。

CosyVoice令人称赞的一个特点是其对用户提供的短短3到10秒音频样本的精准复制能力。无论是复杂的语调还是微妙的情绪变化，这个系laoxiongb2c统都能够捕捉并在新生成的语音中再现。这不仅实现了精确的音色克隆，还突破性地实现了跨语言的语音复制能力。

此外，CosyVoice在模拟语音的情感表达和韵律方面的高级控制也不容小觑。它能够接受富文本或自然语言的指令，细致地调整合成语音的情感和调性，从而生产出既丰富又具有高度情感感染力的语音输出。这种前所未有的情绪控制机制，使得CosyVoice生成的声音不仅真实自然，而且情感丰满，为语音合成技术的应用开辟了新的可能性。

一、安装步骤

（一）安装环境和程序

# 安装git-lfs
sudo apt-get install git-lfs

# 下载安装CosyVoice
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git

cd CosyVoice

git submodule update --init --recursive

# 下载安装 Conda
wget https://repo.anaconda.com/archive/Anaconda3-2023.03-Linux-x86_64.sh

sh Anaconda3-2023.03-Linux-x86_64.sh

bash

# 安装Conda环境
conda create -n cosyvoice python=3.8

# 激活Conda环境
conda activate cosyvoice

# 安装pynini，有点慢，耐心等待
# pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.
conda install -y -c conda-forge pynini==2.1.5

# 在海外服务器，可以直接使用pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

# 安装依赖
sudo apt-get install sox libsox-dev

（二）安装FFmpeg套件

sudo apt update
sudo apt install ffmpeg
#一旦安装完成，你可以通过运行 ffprobe 命令来验证安装是否成功：
ffprobe

（三）下载模型

# git模型下载，请确保已安装git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.glaoxiongb2cit pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct

# SDK模型下载
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapsbobyaihot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

（四）添加局域网访问

app.launch(server_name="0.0.0.0", port=8000)

二、启动程序

cd CosyVoice
export PYTHONPATH=third_party/Matcha-TTS

python3 webui.py --port 8000 --model_dir pretrained_models/CosyVoice-300M

看到Running on local URL: http://0.0.0.0:8000，代表服务器启动成功。

在本地浏览器Chrome，输入 http://服务器公网IP地址:8000

三、生成效率

对于不含有GPU的服务器，生成一句话，大概需要400秒。而含有GPU的服务器，耗时能在1分钟以内。

GPU服务器的显存占用情况如下：

四、开机运行

cd /root/CosyVoice
conda activate cosyvoice
nohup python3 webui.py --port 8000 --model_dir pretrained_models/CosyVoice-300M > cosyvoice.log 2>&1 &
conda deactivate

总结

[Total: 0 Average: 0]

AIGC 实战（环境篇） – 安装部署 CosyVoice

一、安装步骤

（一）安装环境和程序

（二）安装FFmpeg套件

（三）下载模型

（四）添加局域网访问

二、启动程序

三、生成效率

四、开机运行

总结

Winodws Java 的下载、安装和环境配置教程

Ollama与vLLM部署对比：哪个更合适？

Exsi 8.0 安装黑群晖操作方法

coda创建、查看、删除虚拟环境

AIGC 实战（环境篇） – 安装部署 CosyVoice

一、安装步骤

（一） 安装环境和程序

（二）安装FFmpeg套件

（三）下载模型

（四）添加局域网访问

二、启动程序

三、生成效率

四、开机运行

总结

Winodws Java 的下载、安装和环境配置教程

Ollama与vLLM部署对比：哪个更合适？

Exsi 8.0 安装黑群晖操作方法

coda创建、查看、删除虚拟环境

（一）安装环境和程序