AI工具 | 第 242 页 | AIGC跨境工具导航

Chameleon – Meta推出的图文混合多模态开源模型 | AI工具集

Chameleon是什么 Chameleon 是 Meta（Facebook 的母公司）的人工智能研究团队 FAIR（Facebook AI Research）发布的一个能理解和生成任意序列的图像和文本的混...

6个月前

6个月前

6个月前

6个月前

6个月前

FunAudioLLM是什么 FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目，包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨...

6个月前

EchoMimic是什么 EchoMimic是阿里蚂蚁集团推出的AI数字人开源项目，赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点，创造出高度逼真的...

6个月前

6个月前

Moshi是什么 Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型，拥有听、说、看的能力，并能模拟70种不同的情绪和风格进行交...

6个月前

Fish Speech是什么 Fish Speech是一款由Fish Audio开发的开源的文本到语音（TTS）工具，支持中文、英文和日文。通过约15万小时的多语种数据训练，实现了接近...

6个月前