龙空技术网

人工智能科普|让机器开口说话!语音合成相关知识点

AI研究所 152

前言:

此时同学们对“psola算法”大概比较注意,各位老铁们都想要知道一些“psola算法”的相关知识。那么小编也在网络上网罗了一些关于“psola算法””的相关知识,希望同学们能喜欢,看官们一起来了解一下吧!

人类从很久之前就有一个梦想,希望可以创造出一台可以「开口说话」的机器,这个梦想在18世纪正式开始萌芽,从最初的机械装置到现在基于深度学习的语音合成技术,在某种程度上来说,我们已经实现了先辈的梦想。

语音合成技术发展历史

纵观语音合成技术的历史长河,这项技术大概经过了6个阶段的发展。

1、起源阶段

语音合成技术的起源可以追溯到18到19世纪,当时是用机械装置来模拟人的发声,那时候科学家们会制作出一些精巧的气囊和风箱去搭建发声的系统,可以合成出一些元音和单音。

2、电子合成器阶段

20世纪初,出现了用电子合成器来模拟人发声的技术,最具代表性的就是贝尔实验室的Dudley,他在1939年推出了名为“VODER”的电子发声器,使用电子器件来模拟声音的谐振。

3、共振峰合成器阶段

到了20世纪80年代,随着集成电路技术的发展,出现了比较复杂的组合型的电子发生器,比较代表性的KLATT在1980年发布的串/并联混合共振峰合成器。

4、单元挑选拼接合成阶段

到了20世纪80、90年代随着PSOLA方法的提出和计算机能力的发展,单元挑选和波形拼接技术逐渐走向成熟,90年代末刘庆峰博士提出听感量化思想,首次将中文语音合成技术做到了实用化地步。

5、基于HMM的参数合成阶段

在20世纪末期,还有另外一种基于HMM的参数合成技术出现。

6、基于深度学习的语音合成

随着AI技术不断发展,基于深度学习的语音合成技术逐渐被人们所知道,DNN/CNN/RNN等各种神经网络构型都可以用来做语音合成系统的训练,深度学习的算法可以更好地模拟人声变化规律。

语音合成技术原理简介1、单元挑选波形拼接技术

语音合成技术的本质是将文本信息转化成语音信息,在了解这项技术之前,我们先来看一个案例,现在有一句待合成文本:外交部评日本首相国会演说。

如果我们要将这句文本信息变成语音信息,首先需要在语音合成数据库里面挑选出这句文本信息所包含的元素,比如:外交部、日本等。

挑选完元素之后将这些元素按照一定的顺序组合排列,最后再输出我们想要合成的那句语音信息。

以上这些就是一个简单的单元挑选波形拼接技术实现过程。

单元挑选和波形拼接的关键技术点有2点:语料库设计和标注;目标代价和连接代价计算

2、基于HMM的参数语音合成

基于HMM的参数语音合成技术相比于单元挑选波形拼接技术,在操作层面上会更加流程化。

我们来看下基于HMM的训练流程图,主要包括训练流程和合成流程。

将录制好的音库,提取出相应的语音参数,然后将标注数据和声学提取数据一同构建HMM的训练模型,通过上下文属性和问题集的决策树模型,构建训练后的HMM模型,这就是训练流程。

合成流程中我们通过对输入文本的分析,来进行上下文相关HMM训练的序列决策,再将生成后的语音送入参数合成器中,最后输出合成之后的语音。

基于HMM的参数语音合成的关键技术有高质量语音声码器,以及基于上下文的决策树模型。

3、基于深度学习的语音合成

相对于传统的HMM模型,深度学习算法模型能力更强,数据利用率更高,效果优势更为明显。Deepmind提出波形点建模方法,在整个语音合成技术发展史上都是具有里程碑意义的。

语音合成技术典型应用1、语音合成调用形式介绍

A、云端合成:客户端将合成文本提交云端服务,云端下传合成语音。

优势:适用性最佳,本地计算量小,资源占用小

缺陷:需要一定的流量需求。

B、分布式合成: 快速解决语音合成特殊符号、多音字等问题

优势:网络流量低,相应速度快; 声学音库在本地:降低网络流量,降低云端合成成本

C、本地合成:合成引擎在本地

优势:响应快,无网络要求

缺陷:对本地计算资源有要求,效果更新较为滞后

D、提示音模板:应用型组合,根据应用功能特点定制优化效果,如天气预报

优势:有效改善助理类体验。

2、语音合成应用案例介绍——地图导航

在地图导航中,我们做了很多知名人物的语音合成,对使用效果和体验来说,非常nice。

有志玲姐姐甜美的娃娃音,有郭老师比较轻快的相声口,有罗永浩带来的严肃导航。

这种体验方式就是提示音模板加上本地语音合成的一个技术方案,在讯飞开放平台都可以找到,我们有多种发音人组合。

如果你觉得这种发音人模板不符合需求,我们可以为你定制发音人模板

3、语音合成应用案例介绍——配音解说

如果大家有配音需求,可以在讯飞开放平台上寻找发音人以及可以去讯飞配音这样的网页上寻找比较有特色的发音人做视频以及应用配音解说。

4、语音合成应用案例介绍——H5解决方案

这是我们和广告方或者需求方做的一些用于广告宣传的一些界面的方式,我们与肯德基KK上校做了H5的交互宣传,在页面上可以和肯德基老爷爷去做交谈、说话;

罗永浩锤子手机的发布会也用了H5界面,罗永浩给你打电话,用他自己的声音;

京东H5活动页面也是同理,将你的祝福、想法发送宣传。

这种H5形式多样,效果也不错,用于有传播需求的需求方做一个沟通和方案发布,可以满足大家的业务需求。

标签: #psola算法