Hibiki – Kyutai Labs 推出的实时语音翻译模型

Hibiki是什么

Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型，能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构，同步处理源语音和目标语音，联合生成文本和音频标记，实现语音到语音（S2ST）和语音到文本（S2TT）的翻译功能。Hibiki用弱监督学习方法，基于文本翻译系统的困惑度识别单词级的最佳延迟，创建对齐的合成数据进行训练。Hibiki模型在法语到英语的翻译任务中表现出色，具有高翻译质量、说话者保真度和自然度，支持批量翻译和实时设备端部署，展现了强大的实用潜力。
Hibiki - Kyutai Labs 推出的实时语音翻译模型

Hibiki的主要功能

实时语音到语音翻译（S2ST）：将一种语言的语音实时翻译成另一种语言的语音，保留说话者的音色和语调。
实时语音到文本翻译（S2TT）：将语音实时翻译成目标语言的文本，提供更灵活的使用场景。
低延迟翻译：基于实时积累上下文信息，逐块生成翻译内容，延迟极低，接近人类口译水平。
高保真度：生成的语音自然流畅，与源语音的音色和语调高度相似，用户体验接近专业人类口译。
支持批量和实时部署：推理过程简单，支持批量处理和实时设备端部署，适合大规模应用。

Hibiki的技术原理

多流语言模型架构：
- 同步处理：同时接收源语音和生成目标语音，基于多流架构联合建模两个音频流。
- 文本和音频标记：模型预测文本和音频标记的层次结构，实现语音到文本和语音到语音的翻译。
- 因果音频编解码器：用预训练的因果音频编解码器（如Mimi）将语音编码为低帧率的离散标记，支持实时流式处理。
弱监督学习与上下文对齐：
- 合成数据生成：基于翻译单语音频的转录文本并重新合成目标语音，生成对齐的合成数据。
- 上下文对齐：用现成文本翻译系统的困惑度，计算单词级对齐，确保目标语音的生成与源语音的上下文同步。
- 静音插入与对齐感知TTS：基于插入静音或用对齐感知的TTS模型重新合成目标语音，确保目标语音的延迟符合实时翻译的要求。
说话者相似性与分类器自由引导：
- 说话者相似性标记：对训练数据进行说话者相似性分类标记，避免过滤数据的同时，在推理时优先选择高相似性样本。
- 分类器自由引导：调整条件标签的权重，增强模型对说话者相似性的控制，进一步提升语音保真度。
高效的推理过程：
- 温度采样：用温度采样技术，结合因果音频编解码器，实现流式输入和输出。
- 批量处理与实时部署：推理过程简单高效，支持批量处理和实时设备端部署，适合大规模应用场景。

Hibiki的项目地址

Hibiki的应用场景

国际会议：实时翻译不同语言的发言，帮助参会者即时理解内容。
在线教育：将教师的授课语音实时翻译，方便学生无障碍学习。
旅游出行：实时翻译导游讲解或与当地人交流，增强旅游体验。
新闻采访：帮助记者快速翻译采访内容，提升报道效率。
客户服务：实现多语言客服沟通，提升客户满意度。

本站文章版权归 AI工具集所有，未经允许禁止任何形式的转载。

# AI工具

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Hibiki – Kyutai Labs 推出的实时语音翻译模型

Hibiki是什么

Hibiki的主要功能

Hibiki的技术原理

Hibiki的项目地址

Hibiki的应用场景

EliGen - 浙大联合阿里推出的新型实体级可控图像生成框架 | AI工具集

HMA - MIT联合Meta等推出的机器人动作视频动态建模方法 | AI工具集

相关文章

暂无评论

热门标签

热门网址

最新文章