SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型 | AI工具集

AI工具5小时前发布 杨海雄
0 0


SpeechGPT 2.0-preview是什么

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交互系统,基于百万小时级中文语音数据训练,采用端到端架构,实现了语音与文本模态的高度融合。模型具有拟人口语化表达、百毫秒级低延迟响应,支持自然流畅的实时打断交互。能精准控制语速、情感、风格和音色,实现智能切换。SpeechGPT 2.0-preview 具备多种语音才艺,如诗歌朗诵、故事讲述、说方言等。
SpeechGPT 2.0-preview - 复旦大学推出的端到端实时语音交互模型 | AI工具集

SpeechGPT 2.0-preview的主要功能

  • 情感与风格控制:支持多情感(如虚弱、欢快)、多音色(男女切换)及多风格(诗歌朗诵、方言模仿)的精准控制,角色扮演能力突出。
  • 实时打断交互:百毫秒级响应速度支持自然对话中的即时打断与续接。
  • 文本能力集成:在语音表现力基础上,保留文本模型的智商,支持工具调用、联网搜索、外挂知识库接入等功能。
  • 多任务兼容性:可处理长文档解析、多轮对话等场景,兼容短文本任务的性能未因长上下文能力而降低。

SpeechGPT 2.0-preview的技术原理

SpeechGPT 2.0-preview的项目地址

SpeechGPT 2.0-preview的应用场景

  • 智能助手:可用于客服、教育或医疗等领域的智能助手,提供实时口语练习、情感陪伴等服务。
  • 内容创作:自动生成有声书、诗歌朗诵或方言内容,丰富多媒体创作形式。
  • 无障碍通信:为听障或言语障碍者提供实时语音转文字及合成服务。
© 版权声明

© 版权声明

相关文章

暂无评论

暂无评论...