龙空技术网

智能飞机牵引机器人语音控制研究*

起重运输机械 147

前言:

今天看官们对“dtw的matlab算法程序”都比较关注,兄弟们都需要知道一些“dtw的matlab算法程序”的相关内容。那么小编同时在网摘上收集了一些对于“dtw的matlab算法程序””的相关内容,希望咱们能喜欢,咱们一起来学习一下吧!

本文选自《起重运输机械》杂志,如需转载,请注明出处

作者:张 攀 房体会 张 威 韩明明 解润海

摘 要:为研究智能飞机牵引机器人语音控制,实现机场环境下牵引机器人对飞行员语音指令的精确、高效识别, 同时针对飞行员语音指令民航针对性差的问题,提出一种基于民航针对性特色语音库的智能飞机牵引机器人语音 控制方法。首先,进行了智能飞机牵引机器人语音控制的总体功能设计;然后,在陆空通话标准的基础上分析了 机载语音指令的声学特性,并结合机场环境和语料库建立原则分析建立了牵引机器人指令特色语音库。基于孤立 词识别的实验结果显示,所建立的牵引车指令特色语音库与特色测试集的语音识别结果相对于特色语音库与普通 测试集的语音识别结果,识别错误率降低 21.2%,识别效率提高 33.5%。实验结果表明:所述牵引车指令特色语音 库具有民航针对性,有助于提高智能飞机牵引机器人语音控制系统的识别性能。

关键词:飞机牵引机器人;陆空通话;特色语音库;语音识别;孤立词

Abstract: In order to study the voice control of intelligent aircraft towing robot and realize the accurate and efficient recognition of pilots’ voice commands by towing robot in airport environment, and to solve the problem of poor pertinence of pilots’ voice commands to civil aviation, a voice control method of intelligent aircraft towing robot based on civil aviation pertinence characteristic voice library is proposed. Firstly, the overall function design of voice control for intelligent aircraft towing robot is carried out. Then, the acoustic characteristics of airborne voice commands are analyzed on the basis of the radiotelephony communication standards, and the towing robot command characteristic voice database is established based on the analysis of airport environment and corpus building principles. The experimental results based on isolated word recognition show that the voice recognition results of the tractor instruction characteristic voice database and characteristic test set are 21.2% lower in recognition error rate and 33.5% higher in recognition efficiency than the voice recognition results of the characteristic voice database and common test set. The experimental results show that the tractor command characteristic voice database has civil aviation pertinence and is helpful to improve the recognition performance of the intelligent aircraft towing robot voice control system.

Keywords: aircraft towing robot; radiotelephony communication; special voice database; voice recognition; isolated word

0 引言

目前,牵引车牵引飞机由牵引车驾驶员、地面机组 人员、飞行员、塔台管制员配合协调完成 ,工作环节繁琐、复杂,不仅降低了牵引车的工作效率,而且增加 了飞机牵引过程的地面安全事故率 。

智能飞机牵引机器人的核心理念是改变现有牵引车驾驶员控制飞机地面牵引作业的方式,实现智能牵引系统自主(或通过飞行员远程遥控)控制飞机在地面的全工况牵引滑行,将牵引车转变为飞机地面滑行的智能辅助动力设备。

本文拟通过牵引机器人对飞行员语音指令的精确、高效识别来提高飞机牵引的工作效率,减少飞机地面安全事故,进而提高机场安全性和经济性。

1 语音控制系统总体设计

本研究智能飞机牵引机器人语音控制系统属于一种 智能控制系统 [3,4]。该系统通过飞行员指令语音控制牵引机器人作业,系统设计及其工作过程分别如图 1 和图 2 所示。飞行员语音首先通过语音处理设备与特色语音库里的参考模板进行匹配,然后将识别结果作为指令传输给牵引机器人运动控制器,从而控制机器人驱动机构,使机器人按照指令运动,实现飞行员对牵引机器人的直接语音控制。

2 特色语音库的设计

由于牵引语音指令来自于飞行员这一特殊群体,他 们年龄段限制在 20~60 周岁,并且执行飞行任务时,严格遵循民航通话标准,另外,由于驾驶舱指令是参照陆 空通话标准扩充的机载短语指令 [5,6],样本数据较少,且具有用词简洁、准确、专业,语速平稳,发音力度强化变更的特点,所以牵引机器人语音指令是具有一定民航针对性特色的短语语音。通过建立具有民航针对性的牵引机器人指令特色语音库,来提高飞机牵引机器人智能语音控制系统的识别性能是有必要的。

语音库通常依据语音学、语言学和声学特点建立,本文特色语音库的建立,包括特色语料库设计规范、特色语料库实现、特色语料库语音处理三个环节,重点对说话人、语料内容、录音特点等进行了规范性设计,具 体设计思路如图 3 所示。

由图 3 可知,特色语音库是由特色语料库按其设计 规范建立后,经特征提取、语音训练等语音处理后建立[7]。其中,特色语料库设计规范中,录音人规范和录音规范分别指语料库实现时,严格按照飞行员人群特点选择录音人,并严格按照飞行员语音的声学特性采集录音。

本研究飞机牵引机器人特色指令语料库在实验室低 噪声环境下建立。利用Matlab 开发了一个基于本研究 内容的语音信号数据检测系统,系统在具有4 GB 内存 和 3 GHz CPU 的 PC 机上运行。利用PC 机的Windows 录音设备,其中,采样率为16 kHz,采样位数为 16 bits,录制了 10 个人(5 男 5 女,年龄均在 20~60 岁之间)的语音,内容为所建牵引机器人语音基本指令集中所有指令,并且严格按照牵引机器人指令语音声学特性要求,所有人要求讲标准普通话,且语速平稳,保持 每秒2 字,即每条语音指令用时1 s。另外发音力度相对于日常语音做适度强化变更。每人每条指令语音均被 采集30 次,即每条指令语音均被采集300 次,保存为 wav 格式。指令集中每条指令各300 条语音采样,共 3 600 条,组成本文牵引机器人指令特色语料库。利用 Matlab 编程,该语料库的软件实现流程如图 4 所示。

3 实验结果及分析

动态时间规整(Dynamic Time Warping,DTW)算法适合训练样本缺乏情况下的简单、孤立、短语语音识 别 [8]。本文牵引机器人语音指令是参照陆空通话标准扩 充的机载短语语音指令 [2],样本数据较少,属于简单、孤立、短语语音,加之驾驶舱对机场噪音分离性较好,指令语音具有一定的抗噪性,因此,牵引机器人指令语 音识别选择 DTW 算法。

本实验在实验室低噪环境下,基于Matlab 软件平台进行,共设计两组实验:实验一通过对牵引机器人指 令集中12 条指令“小车、启动、前进、后退、左转、右转、 加速、减速、近进、夹持、举升、停止”进行训练,建立两种不同测试集,一种是严格按照本文特色语音库建立规则建立的特色测试集,另一种则是没有特殊建立规则建立的普通测试集,并通过对比两种不同测试集与本实验所建特色语音库匹配时的算法识别精度和效率, 验证本文所建特色语音库的民航针对性 ; 实验二是在实验一的基础上,改变两种不同测试集的样本大小,进一步将两种不同测试集与本实验所建特色语音库匹配时的算法识别精度、效率进行对比,验证本文所建特色语音库的民航针对性。

3.1 特色测试集的建立

1)建立特色测试集

本测试集同样参照本文牵引机器人指令特色语音 库的建立原则建立,其测试语音仍由上述10 人录制, 每人分别采集各条指令语音20 次,即每条语音各采集 200 次,同样要求所有人语速平稳,保持每秒2 字,同时发音做同等力度的强化变更,组成特色测试集。

2)建立普通测试集

与特色测试集的建立相比,本测试集测试语音的采样环境、采样设备及特征提取参数不变,但是录制语音 的 10 个人(5 男 5 女)是随机选取的 10~18 岁和 60~90岁两个年龄的人,并且对其普通话水平、发音力度、吐字清晰度及其语速都没有特殊要求。同样每人五条指令 语音各采集 20 次,组成本实验的普通测试集。

3.2 特色测试集与普通测试集下算法的识别性能对比

将测试集里的每条测试模板分别与所建语音库里的各个参考模板进行匹配,分别统计两种不同测试集 下 DTW 算法的识别结果。由仿真实验结果可知,对于同一种测试集,同一条指令的各条语音的识别结果相差不大,所以,本实验将同一种测试集里同一条指令的各条语音的识别错误率和识别效率都进行了均值处理,最后将不同测试集下均值处理后的指令词识别错误率和识 别效率进行对比分析,结果如表 1 和表 2 所示。由表 1 和表2 可知,特色测试集下算法识别错误率比普通测 试集下算法识别错误率降低 21.2%,同时,特色测试集下算法识别效率比普通测试集下算法识别效率提高了33.5%。该结果证明按照特色语音库建立原则建立的特色测试集与特色语音库匹配效果更好,这充分验证了本文所建牵引机器人指令语音库的特色性,即民航针对性。

3.3 大小不同测试集下算法的识别性能对比

考虑到测试集大小可能会影响测试集与语音库的匹配,为更好地考察特色语音库的民航针对性,本实验在改变测试集大小的情况下,进一步对比了两种测试集分别与特色语音库匹配时算法的识别性能。本实验建立了 测试模板数量为240 条至2 400 条,以 240 条为间隔的 大小不等的十种测试集。其中 240 条测试模板的测试集 是由上述实验中的 10 个人分别录制指令集中 12 条语音 指令各2 次。480 条测试模板的测试集则是由上述实验 中的 10 个人分别录制指令集中 12 条语音指令各 4 次。以此类推建立其他测试集。

分别将不同大小的测试集里的测试模板与语音库里 的参考模板进行匹配,将两种测试集下 DTW 算法的识别效率和识别错误率进行对比,结果(同样进行均值处 理)如图 5 所示。

由图 5a 可以看出,随着普通测试集增大,DTW 算法的识别效率略有降低,相反,随着特色测试集的增大, DTW 算法的识别效率逐渐增大,且呈线性增长。由图 5b 可以看出,DTW 算法的识别错误率随着普通测试集的增大逐渐增大,对于大数据时代,这种错误率的增大 是不允许的,相比之下,随特色测试集的增大,DTW算法的识别错误率明显降低,并且几乎成线性降低,这也体现了特色测试集较好的适应性。

不同测试集下DTW 算法性能对比实验结果进一步证明,特色测试集相对于普通测试集,尤其在大数据测试集情况下,与本文所述特色语音库匹配时,算法的识别效率和识别正确率均有较好的表现。

综上所述,本文所述特色语音库具有较好的民航针对性,可以作为智能飞机牵引机器人语音控制的理想语音库。

4 结束语

飞行员是一群特殊的群体,在执行任务时,他们的通话将严格按照民航陆空通话标准,语音识别本质就是通过识别算法,将待测语音与语音库语音进行模式匹配,由此可见,语音库的质量可能会影响智能语音识别系统的识别性能。

由于机场对安全性的高标准要求,本研究对智能飞机牵引机器人识别飞行员指令的准确性和时效性都提出了较高的要求。本文通过研究牵引机器人指令语音库对识别系统识别性能的影响,提出了一种具有民航针对性的特色语音库。实验结果表明,所述牵引机器人指令特色语音库具有民航针对性,且能较好地提高系统的识别性能。

参考文献

[1] 安喜平 , 王志 , 齐向阳 , 等 . 飞机牵引车车架的改进设计与有限元分析 [J], 起重运输机械 ,2018(9):120-123.

[2] Airplanes B C. Statistical summary of commercial jet airplane accidents[J]. Boeing Commercial Airplanes ,2015, 27(1):19-24.

[3] 张威 , 吴志恒 , 王立文 . 一种飞机牵引车智能语音识别系统:中国,201510147677.2 [P]. 2015-07-29.

[4] 解本铭 , 韩明明 , 张攀 , 等 . 飞机牵引车语音识别的动态时间规整优化算法 [J/OL]. 计算机应用,1-8[2018-05- 07].

[5] Carrie A Lee. Efficiency in cockpit: A comparison of keypad entry and voice recognition systems [EB/OL]. carrie@ carrielee.net,2003.

[6] 赵宁 . 谈英语陆空通话的语体风格 [J]. 中国民航大学学报 , 1999(3):68-71.

[7] 邹法欣 . 语音语料库的设计与实现 [D]. 广西:广西师范大学 , 2012.

[8] 陈乾 , 胡谷雨 . 一种新的 DTW 最佳弯曲窗口学习方法[J]. 计算机科学 , 2012, 39(8):191-195.

[9] 晁浩 , 宋成 , 彭维平 . 基于发音特征的声效相关鲁棒语音识别算法 [J]. 计算机应用 , 2015, 35(1):257-261.

标签: #dtw的matlab算法程序