龙空技术网

车载智能语音第三章(终篇)---NLP语音交互及车载语音发展方向

阿宝说百车 94

前言:

此刻大家对“声源定位算法”可能比较注重,朋友们都想要分析一些“声源定位算法”的相关知识。那么小编在网上网罗了一些关于“声源定位算法””的相关内容,希望大家能喜欢,姐妹们快快来了解一下吧!

我们再来回顾一下,智能语音交互三大重点,听清、理解、执行,前面两个章节都在阐释听清这个环节,也就是怎么把人的声音转换为文字,也即是语音识别部分,目前各个厂家的识别率都是90%以上,这部分差距逐渐在缩小,很多的体验差异是在理解部分,这部分和产品经理的场景策略、多轮对话有着密不可分的关系,直接决定着智能语音助手的成败。


前面已经有语音转为文字了,那么机器识别到文字后要操作什么,反馈什么,这个就是NLP需要处理的事情。


这里最难的就是NLP,怎么让机器像人一样理解我们的语音,这里是最难的。大家常说的97%的语音识别率,就是仅仅是前端,把语音转为为文字的正确率为97%,现在理解了吧,这里的正确率不是指的机器最终反馈的结果正确率,而仅仅是语音转为文字的正确率,执行我们心里想要的命令的准确率这个最多只有80%,是说语音识别率这么高,我说话就不好使了呢,不是我普通话不标准,是理解有问题。






车载NLP的理解


先说一个笑话,考试结束后,学霸和学渣都说的同样的话,

WO KAO WAN LE

学霸:我考完了

学渣:我靠,完了

这里就类似于NLP,真的虽然每个中文字都认识,但是具体怎么理解并解答,这个学渣就只能望洋兴叹了。


其实NLP 理解起来比较简单,大家都有使用过电脑百度搜索过东西吧,智能语音助手第一步就是把语音转换为文字,这部分的识别率是90%,此时你的文字要转换为机器理解,就和手动输入百度搜索东西是一样一样的原理,都需要机器去识别这个文字给你搜索结果。


你在百度输入怎么拔牙才不痛,给你的结果通常不是你想要的,90%可能是肛肠痔疮医院,其实它可以做的更好,但是由于有部分商业原因给你一个不好的体验,所以在智能语音助手方面,这个时候就需要NLP能有更好的体验效果。


NLP指在计算机读取语言时将文本转换为结构化数据的过程。简而言之,NLP是计算机的阅读语言。可以粗略地说,在NLP中,系统摄取人语,将其分解,分析,确定适当的操作,并以人类理解的语言进行响应。



上一个系列中有谈到交互的方式随着网络速度的变迁,影响到整个的交互模式,越来越自然话,也就是可以通过语音、表情、手势等动作来知道你的需求,但是这里的语音怎么让你更舒服,不是条目式的命令,这里就涉及到NLP的处理,怎么处理的万物润无声,轻风细雨的感觉,这个非常考验NLP的处理能力。



这里对于NLP的处理还是以调节亮度举例,比如把亮度调大,有很多种表达,可以是请把亮度调大,把亮度调大,亮度调大,语音识别出都能准备转换为文字,但是在NLP这里的解释的语言最终输出给机器的机器命令都是亮度调大的命令,表现出来的结果也是亮度调大了,虽然每个人说的文字不同,表达的意思相同,对于机器来说非常困难,它需要去断句,同时通过关键词去内部查询,最终做出对应的决策,你说机哥这个还不容易,我都能理解,机器肯定能理解,还别这么说,我们看看下面的案例。


来一个比较难的北京大学和北京的大学的NLP处理,哪怕你说的是北京的大学,90%的智能交互机器NLP都处理为北京大学,这个其实和搜索引擎的处理方式类似,都是在文字释意的时候怎么去断词,需要使用贝叶斯概率公式和深度网络神经算法才能更精准的处理此类问题。有机会可以跟大家讨论一下神经网络的算法,但是这个会涉及到计算能力快慢的问题,如果要真正的处理好此类问题需要GPU的算法比较强大,在神经网络算法的卷积下能够快速出结果,一般此类工作都是放到云端服务器去处理,这样本地的算力就不需要那么大,处理速度也会更快一些。


如果我们为了解决这个问题,牺牲了时间,那么用户的体验也是很不好的,我语音输入一个北京的大学,机器2分钟后才反馈,那么对于用户来说是不可以接受的,所以现在在NLP的算法中需要去平衡语义准确率和响应时间的关系,特别是车载智能语音助手,用户要搜寻一个加油站,磨磨唧唧3分钟才出结果,用户估计已经抓狂了,及时反馈非常重要,不过车载语音助手有一个好处是很多使用场景都是本地的处理,车辆基本控制、导航、收音、车辆信息查询等等,这部分都是本地NLP就可以处理,不需要涉及到云端,一些生活信息类查询的服务,这部分的NLP处理有部分涉及到云端。



或许是受到智能音箱、手机、机器人的语音交互功能带来的人性化、趣味性体验的影响,又或是在自动驾驶、智能汽车风潮的大力推动下,用户从最初对车载语音只要求能听到听懂就好变成希望它能够像真正的人工智能助手一样,不只是一问一答的简单人机对话,而是真正倾听他们的需求,给与情感上的反馈。这里都和NLP算法有关。

这个NLP智能语音的算法的发展还需要云端的计算能力的大小有关,当有一天计算能力得到质的提升,同时反馈传输的时间也是质的提升(比如5G网络),那么车载语音的用户体验就是质的飞跃,基于目前的情况下怎么做到更智能化,就考验各家的本领的。在这种情况下最大的考验是产品经理,需要了解和设计交互逻辑,多轮对话的目的是把语义理解清楚,而不是为了多轮交互来设计多轮交互,同时要考虑什么样的情况下一定要多轮语音交互。


这个就是一个车载智能语音助手的交互逻辑框图,前面两个章节已经说了ASR(语音识别,也就是语音转换为文字),需要有对话管理系统,而且会对接到不同平台的服务内容,比如你喜欢听喜马拉雅的三刀说车,此时就会经过路由,输出喜马拉雅的相关节目和内容。


如果此时你对车载语音助手说,今天下午五点帮我预约一下中餐厅,这句话识别起来比较容易,但车载语音助手却无法理解该句话表达的意思,因为它含有语义上的歧义。语音交互其实最终也是消解歧义和模糊的表达,来达到理解对话目的和用途。

此时语音助手给出来的结果是预约的行程,而不是给你中餐厅的结果,如果有多轮交互,会再次语音回复你需要看看附件的中餐厅有哪些么?此时经过多轮交互,就可以达到你的目的。


如果你此时说的是今天下午五点帮我定一下中餐厅,此时语音助手的反馈就很准确,给你推荐的是你附近的中餐厅。



不同车型的NLP处理


因为多数车型仍配备的是传统车载语音系统,也就是条目式语音识别,在使用时你必须像背诵课文一样对系统说出标准而又死板的指令,才能得到系统的正确回应,哪怕说错一个字都不行。这些固定的指令有时候会让你很抓狂,理解能力差的语音系统简直能把车主逼疯。


以前大学里面体验过一个机器人,只能用固定的语句去问它才答复,多一个字和少一个字都不行,那个就是完全的类似于指纹识别原理。

普通的语音的交互


宝马X3 自然语音交互识别


大家看到这两个交互对话逻辑,前面那个是正常的对话系统,需要按照一步一步的进行往后推进,不过整体听完后,感觉就不想用第二次了,太多轮交互了,而且比较呆板,第二种交互逻辑就非常符合人类自然交互逻辑,我把想说的说完了,自己去处理就行了呗。


而全新宝马X3上搭载的自然语音识别系统就是另一个世界了。相比传统语音系统,NLU最大的特点就是对中文语言进行了深入的优化,无需刻板的命令词汇,系统便可听懂“人话”。简单一句“我饿了”,系统就能自动帮你找到附近的餐厅。


当然如果你的车型在目前算法没有达到这么牛逼的时候,如果强行使用自然语音交互算法会得到不太好的效果,比如你说你饿了,直接给定一家你不喜欢的餐厅,点一份你不喜欢吃的菜,问你是否确认,你的心情是不是一万头骆驼飘过,所以必要的交互是需要的。很多东西为什么一定要反馈,就是给人一种体验感和参与感。


TTS 语音输出



我们比较熟悉的ASR技术(Automatic Speech Recognition,语音识别),是将声音转化为文字,可类比于人类的耳朵。


而TTS技术(Text-To-Speech,语音合成),是将文字转化为声音(朗读出来),类比于人类的嘴巴。大家在Siri、车载导航等各种语音助手中听到的声音,都是由TTS来生成的,并不是真人在说话,想想怎么可能在高德地图中让凌志玲姐姐和郭德纲大叔实时为你播报嘛。


大家都有去KTV唱歌吧,想想唱刘德华的冰雨,冷冷的冰雨在脸上胡乱地拍,暖暖的眼泪跟寒雨混成一块,是不是有一种鼻音唱歌的感觉,而且韵律、腔调和节奏感都抓住的话,你就是下一个刘德华,声音非常像。


其实TTS语言合成技术也就是这样的,分为前端、后端和声码器。


前端做的事情,是把文本进行解析,决定每个字的发音是什么,这句话用什么样的语气语调,用什么样的节奏来读,哪些地方是需要强调的重点等等。常见的语气相关的数据描述包含但不限于下面这些:韵律边界,重音,边界调,甚至情感。还有更多的信息甚至是难以客观描述的,目前的算法只能暂且忽略。


类似于唱杨坤的歌曲,你需要知道哪里是高潮、哪里有断点、哪里需要喉咙沙哑发声,需要提前进行歌词解析一样一样的。


后端这里需要声学建模,模型转换都需要有原声的数据,也就是常说的巧妇难为无米之炊,不同厂家做出来的声音好与坏,同这个声学模型有90%的关系,目前常见的有两种方法,一种是拼接法,一种是参数法。


拼接法


从事先录制的大量语音中,选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等;为了追求合成语音的连贯性,也常常用使用双音节(从一个音素的中央到下一个音素的中央)作为单位。


优点:语音质量较高


缺点:数据库要求太大。一般需要几十个小时的成品预料。企业级商用的话,需要至少5万句,费用成本在几百万元。


参数法


根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。


优点:据库要求相对较小一些。


如果只需要出声(做demo),大概500句就可以,但是效果肯定不行。通用TTS,一般至少需要5000句,6个小时(一般录制800句话,需要1个小时)。——从前期的准备、找人、找录音场地、录制、数据筛选、标注,最终成为“可以用的数据”,可能至少需要3个月。(讯飞在各方面比较成熟,用时会短很多)个性化TTS,大多数是用“参数”方法的。(adobe、微软也有尝试过拼接法,不过相对参数方法来说不是太成熟,效果也并不是太通用)


缺点:质量比拼接法差一些。因为受制于发声算法,有损失。


所有这里你可以听到导航有志林姐姐温柔的声音,同时也可以挺大郭德纲有趣的语音播报都是通过TTS语音技术播报而来,有的软件听起来很自然,有的听起来很别扭,其实很大程度上就是取决于采用的是参数法还是拼接法来实现该技术。

智能车载语音助手发展方向


1、收费模式的转变



这里说一句,车载语音提供商和车厂的关系虽然如漆似胶,但是现在还是存在很大争议的地方,特别是后期的付费方面,车厂不想单独的做一个硬件供应商,这个和手机角度还不一样,因为手机是属于纯硬件供应商,卖出去了以后,手机APP随便由客户装,而且APP收费直接是软件公司向用户收取费用的,而且如果软件出现使用问题,用户一般也不会像手机厂家进行投诉,除非是硬件本身的问题。


但是车子这个产品比较特殊,一般出了问题,无论软件还是硬件问题,对于用户来说就是车子本身有问题,所以车厂一般在找第三方合作的时候都会很谨慎,同步想在收费方面也想自身进行控制,很多硬件产品商都想做的事情,就是后端的软件进行收费,当用户需要开通不同APP的应用的时候,需要付费,需要定制一些语音服务的时候也需要付费,都想获得一杯羹。


比如车厂和高精度地图厂家一样的,对于采集到的地图数据归属问题,车厂想要这个数据,地图厂家也要这个数据,这个数据可以做很多想象的空间,比如你经常去的地方,可以推荐一些餐厅,KTV等等,这些都是大数据的收费想象空间,那么谁去付费,怎么收费就是一个问题。


定制化的车载语音服务需求,比如你想把自己家人的声音作为导航,闭环的声纹交易环节,这些都是可以获得蛋糕的途径,只要软件能赚钱,这些都好商量。


2、拟人化、多模交互融合、主动化这几个是车载语音未来的发展方向


说说未来发展方向之前,我先说说目前车载语音要胜出的几个关键因素。

一是ASR车载语音识别的方向上(也就是语音转文字的方向上还要继续推进,主要是把前面的降噪算法做好,否则一切都白搭)

其次是在语义解析NLP 需要做的更人性化,同时语音交互界面做的更友好,甚至有行业人士展望未来的车厢内VUI(语音界面)将替代GUI(图形界面),如果这个设想成为现实那么现今大行其道的大小屏幕将迎来功能上的革命。最终就是响应速度需要更快速。



现在自从蔚来的ES8出现NOMI出现后,越来越多的车厂也上了车载情感机器人,为语音机器人塑造角色形象,这样更加生动具体,同时避免一个车载摄像头在那里让用户觉得不舒服,时刻采集自己的信息,如果是一个机器人这样的,同步上车的时候就会自动转向,播报,对话,需要的就是外观可爱,同中控有信号通信,有一个MCU控制马达转动,同步有一定的边缘计算能力,能够进行扩展学习。做更多的场景预测服务,比如下雨天,定位知道在服务区,会问你是否需要点一杯咖啡,直接去取就行,听起来是不是很nice。


语音交互从单一模态交互方式和其他交互方式(比如摄像头、手势识别)配合的 多模态交互发展,比如在车载系统中,用语音交互做更便捷的交互方式,同时用虹网膜识别来判断疲劳驾驶辅助,车载语音机器人通过声音判断用户方向,通过脸部识别抓取锁定用户的行为轨迹。


目前语音交互都是人先对机器发出指令,机器才会反馈,未来从机器被动接受式到机器发起主动式的交互,甚至达到更深层次的主动关怀及个性化服务,这需要机器有更高的学习和边缘计算能力。


比如收集到你经常在开车行驶速度在30KM/H以内都喜欢把车窗打开,此时就会主动去询问你是否需要开窗,你回到是以后就自动开窗了,后面记忆到这个习惯后就自动开窗(当然这个最好配合摄像头人脸识别,万一变更驾驶人员后,需要再次询问,避免因为不同驾驶人的驾驶习惯,自动进行操作带来不好的体验)。



后续这些多模交互、主动化都一定是结合场景来进行服务的,最终的目的是提升用户的体验,比如你要约会需要去吃小龙虾,直接语音搜索附近的小龙虾,就推荐评价最高的小龙虾,根据我的大数据进行匹配计算,然后进行导航,预先预定,同时吃完东西进行自动支付,整个闭环的环节,这些都是场景化和闭环交易的结合。


语音交互需要不同车厂考虑优秀的VUI,现在不同的厂家制作的交互逻辑是不一样的,现在我们很多交互都是触摸交互,都是GUI交互逻辑,比如什么界面在第一页,点击进去后第二级子菜单是什么,第三级子菜单是什么,但是语音是没有显示界面交互的,需要考虑语音的CUI对话交互系统,同步也有图像的GUI交互,比如你说导航去哪里,同步导航VUI说需要你选择第几个,地图上也显示这几个地址的预览图片,这样更自然的交互。


标签: #声源定位算法