Gummy – 通义推出的端到端语音翻译大模型，能实时流式生成结果 | AI工具集

Gummy是什么

Gummy是通义实验室在2024年云栖大会上推出的端到端语音翻译大模型。模型能实时流式生成语音识别与翻译结果，支持包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等十余种语言的语音输入，将其翻译成目标语言。Gummy模型通过端到端的方式，减少翻译延迟，提高翻译质量，在多个测试集上取得SOTA（State of the Art）的结果。Gummy支持多语言混翻、术语干预与领域提示等商业化落地的能力，能在跨国会议等场景中无需指定源语种，流畅地将各国语言翻译至目标语种。
Gummy - 通义推出的端到端语音翻译大模型，能实时流式生成结果 | AI工具集

Gummy的主要功能

多语言支持：Gummy能处理包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等十余种语言的语音输入，实时翻译成目标语言。
端到端翻译：与传统的级联系统不同，Gummy采用端到端的设计，直接将语音翻译成目标语言，无需依赖中间的文本阶段。
低延迟翻译：Gummy的翻译延迟被降低到0.5秒以内，比人类专家的同传延时还要快。
高质量翻译：在多个业界公认的开源测试集上，Gummy取得SOTA（State of the Art）的翻译质量结果。
流式翻译：Gummy支持随说随翻，即边听边翻译，适合实时交流的场景。

Gummy的技术原理

端到端设计：Gummy模型通过端到端架构，将源语言的语音输入映射到目标语言的文本输出，简化开发流程并提高了系统性能。
深度神经网络：基于深度学习技术，尤其是深度神经网络，学习语音到文本的复杂映射关系。
实时流式处理：支持实时语音识别和翻译，实现边听边翻译。
wait & predict机制：模型内部采用特殊机制，自动判断翻译时机，优化翻译质量和延迟。

Gummy的项目地址

项目官网：tongyi.aliyun.com，目前语音翻译大模型Gummy部分功能已上线通义APP可下载体验。

Gummy的应用场景

实时语音翻译：Gummy模型能实时翻译会议中的发言，为国际会议、多语言谈判等提供同声传译服务。
教育和培训：在教育领域，Gummy辅助语言学习，提供多语言教学内容的实时翻译，帮助学生和教师跨越语言障碍。
旅游和导航：为旅行者提供实时语音翻译，帮助他们与不同语言的当地人交流，或在导航时提供多语言指引。
客户服务：在客户服务领域，Gummy作为多语言客服助手，提供快速准确的语言支持，提升客户满意度。
医疗咨询：在医疗领域，Gummy提供多语言的医疗咨询翻译服务，帮助医生和患者之间的沟通。

本站文章版权归AI工具集所有，未经允许禁止任何形式的转载。

# AI工具

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Gummy – 通义推出的端到端语音翻译大模型，能实时流式生成结果 | AI工具集

Gummy是什么

Gummy的主要功能

Gummy的技术原理

Gummy的项目地址

Gummy的应用场景

Ovis1.6 - 阿里国际AI团队推出的多模态大模型，超过闭源GPT-4o-mini | AI工具集

cogvlm2-llama3-caption - 智普AI开源的视频标注模型，生成文本描述 | AI工具集

相关文章

暂无评论

热门标签

热门网址

最新文章