5分钟带你读懂“语音识别”工作原理

CarrotCool 03-22 276

前言：

而今兄弟们对“语音识别的技术原理”大约比较珍视，你们都需要了解一些“语音识别的技术原理”的相关内容。那么小编在网络上网罗了一些关于“语音识别的技术原理””的相关内容，希望我们能喜欢，你们一起来了解一下吧！

电话机器人效果好不好，首先得看他的语音识别能力怎么样，语音识别率高、稳定，那么这个电话机器人就不会差。我们可以看一下语音识别的基本原理：

一个基本的语音识别系统如下图，实现是正常工作流程，虚线是训练模式分类问题中的模板（这里就是声学模型，字典和语言模型）。

预处理：

1. 首尾端的静音切除，下降对后续进程形成的搅扰，静音切除的操作一般称为VAD。

2. 声响分帧，也就是把声响切开成一小段一小段，每小段称为一帧，运用移动窗函数来完成，不是简略的切开，各帧之间一般是有交叠的。

特征提取：首要算法有线性猜测倒谱系数（LPCC）和Mel 倒谱系数（MFCC），意图是把每一帧波形变成一个包括声响信息的多维向量；

声学模型（AM）：经过对语音数据进行练习取得，输入是特征向量，输出为音素信息；

字典：字或许词与音素的对应，简略来说，中文就是拼音和汉字的对应，英文就是音标与单词的对应；

言语模型（LM）：经过对大量文本信息进行练习，得到单个字或许词彼此相关的概率；

解码：就是经过声学模型，字典，言语模型对提取特征后的音频数据进行文字输出；

语音辨认流程的举例（仅仅形象表述，不是实在数据和进程）：

1. 语音信号：PCM文件等（我是电销机器人）

2. 特征提取：提取特征向量[5 4 2 66 98 ...]

3. 声学模型：[5 4 2 66 98]-> wo shi dianxiao jiqiren

4. 字典翻译：窝：w o；我：w o；是：s i；电销：dian xiao 机：j i；器：q i；人：r en

5. 言语模型：我：0.1286，是： 0.3616，电销：0.5682，机器人：0.6785；

6. 输出文字：我是电销机器人；

「深入浅出」了解语音识别的技术原理和应用价值？