龙空技术网

火山语音发布端云一体多情感语音合成模型PortaSpeech 2

量子位 2357

前言:

现在朋友们对“语音合成模型训练”可能比较讲究,看官们都想要剖析一些“语音合成模型训练”的相关知识。那么小编在网摘上收集了一些有关“语音合成模型训练””的相关文章,希望看官们能喜欢,看官们一起来学习一下吧!

这是一段由真人和TTS组成的录音,你能听出哪部分是真人、哪部分是合成吗?

以上音频采用火山语音全新自研的语音合成模型 PortaSpeech 2 (下文简称:PS2)合成。为满足各种业务场景和客户需求,PS2 在第一代模型PortaSpeech的基础上,着重对音质韵律、多情感、端云能力以及克隆等进行了大规模升级。经评测,PS2合成效果与真人录音相似度高达99.8%,其中离线合成不仅支持多情感多风格,品质也与在线合成呈现出高度一致性。

图1:社区开源版 PortaSpeech

首发离线多情感多风格 品质媲美在线实现无感切换

离线合成是指用户在无网状态下通过本地设备实时进行语音合成,具备实时性和隐私保护的优势,虽然这种离线方式消除了对网络连接的依赖,用户可以在任何时间、任何地点进行合成,但往往很难与在线合成相媲美。经过深入的训练与优化,PS2 打破传统的单一化低品质的离线效果,具备了与在线合成的品质并具有多情感、多风格能力,让用户在无网、弱网状态下也能够享受到极致的语音合成体验。

作为业界首个支持多情感多风格的端云一体模型,PS2的端云侧同时兼具“三高”,即高品质、高一致和高性能。

PS2端侧能支持的情感、风格范围非常广泛,包括但不限于开心、悲伤、愉悦、抱歉、撒娇、鼓励等。

此外基于端云一体的架构设计和生成式蒸馏的训推策略,PS2的端云侧可同时兼具高质量和音质一致性,实现用户在端侧和云侧之间切换时几乎无感知;并且从各维度充分考虑了用户在不同场景下的需求,确保了端到云的效果在各个环节都能够保持高度一致。实际使用中,会根据用户的操作和网络状态选择最优模型进行语音合成,保障用户在任何环境下都能享受到流畅的语音合成体验。

为了最大程度提升PS2在资源利用率和性能方面的成绩,为用户带来更为稳定和高效的使用体验,火山语音团队在训练阶段,针对不同模型特点采用 Int8 和 fp16 量化训练,有效降低模型占用空间并为将来在多种硬件设备上提供高速推理能力奠定基础;在推理阶段,支持流式推理以降低处理首批数据时的延迟,提升系统响应速度和实时性,为用户带来更流畅的体验。性能评测如下表:

硬件

A76(骁龙8155 )

[CPU/GPU]

A73 (骁龙660)

[CPU/GPU]

A53(rk3562 )

[NPU]

适用设备

车机系统

手机、VR眼镜等

点读笔等携带式设备

首包

100ms/100ms

100ms/100ms

300ms

整体链路 rtf

0.12/0.10

0.38/0.25

0.25

高度还原 在线合成与真人相似度高达99.8%

除了多重技术方向的创新升级之外,新晋的PS2模型在云端应用中也展现出了高品质的语音合成能力以及效果。无论是与真人录音相比较,还是与其他语音合成模型进行对比,PS2在各类场景中均有出色表现。

任意文本内容都可以稳定合成出媲美真人录音的效果。

聚焦模型结构与训推范式创新 PS2带来合成技术新突破

「模型结构升级」模型结构方面,PS2引入了全新的中间声学表征、声学模型和声码器。相较于从前,PS2根据语音数据本身的特点,使用了更加精细的声学特征HiFiSpec。可以极大保留训练数据的音高、音频等细节信息,提高模型在音质和韵律的生成上限,使生成的语音音质更加清亮、饱满和稳定。

具体来说,PS2的声学模型根据HiFiSpec数据本身的特点,设计了兼具长短时依赖的编解码器,引入了基于隐韵律表征预测的对抗生成式神经网络;同时使用蒙特卡洛采样对隐韵律表征分布进行高精度和高效近似,允许其最大程度还原HiFiSpec的真实分布和多样性,使合成的语音更接近自然状态下的人类声音。声码器方面,PS2优化了音频波形分布拟合目标,同时借助HiFiSpec的高表达性,重现极致音色和音质效果。

图2:火山语音新一代 PortaSpeech 2 模型框架图

「训推范式升级」训推范式方面,PS2推翻了以往语音合成模型预训练和微调的传统范式,转而采用新型自研教师-学生模型训练范式。为了更好地拟合真实的语音分布,PS2的教师模型会自动根据不同业务场景特性,动态结合类似GPT的上下文学习(In-context learning)和微调学习(finetuning)方法,快速完成新音色、场景和情感的训练。

为了实现极致的模型性能和尺寸,PS2还进一步提出了一种名为“生成式蒸馏”的方案。即完成训练的教师模型会将它学到的语音数据分布通过分布形状规整和长尾裁剪等方式,将最适用具体业务场景的语音分布传授给学生模型,从而允许学生模型在极小的模型参数下,生成的语音质量和韵律几乎与教师模型无异。此外,学生模型还可以完美继承教师模型的诸多能力,包括多语言和多情感等,可以胜任各种端上和端云混合场景。训练数据方面,除了火山语音内部录制的大量精品数据以外,PS2还使用万小时以上私有版权语音数据,借助高效先进的模型架构和训推范式,可以在仅有少量数据下实现表现力、情感和音色的迁移,满足绝大多数场景需求。

图3:生成式“教师-学生”模型蒸馏

火山语音团队正不断将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业,已覆盖汽车、金融、有声阅读、视频配音等众多应用场景,技术能力已成功应用到抖音、剪映、番茄小说等多款产品上,并助力多家行业头部企业实现AI语音能力的应用与拓展。未来火山语音还将不断探索前沿科技与业务场景的高效结合,持续助力用户体验和业务增长,以实现更大价值。

标签: #语音合成模型训练 #语音合成模型训练平台