前言:
当前同学们对“d8算法”可能比较关心,姐妹们都想要剖析一些“d8算法”的相关内容。那么小编也在网摘上搜集了一些对于“d8算法””的相关资讯,希望各位老铁们能喜欢,看官们快快来学习一下吧!在前不久结束的我爱音频网举办的「TWS World & 2021(夏季)亚洲蓝牙耳机大会」上,共有160+家音频品牌厂商、行业配件设备厂商齐聚一堂,为大家带来了数百款最新发布的音频产品配件,共同交流探讨音频技术和发展趋势。
峰会期间,我爱音频网采访到了思必驰IOT部门产品副总梅剑雄先生,他与我们分享了真无线耳机通话降噪技术的重要性、目前市面上有哪些解决方案,以及思必驰在TWS耳机通话降噪技术方面有哪些优势等。没能去到现场的朋友一起来看看文字版的专访内容吧~
梅剑雄先生现任思必驰IOT部门产品副总,负责IOT各业务线的产品规划和研发管理;以及负责产品规划所需语音交互技术内核的研发和管理,包括语音识别、自然语言理解、信号处理、模式识别、机器学习等;同时负责重点客户、超大项目的全程对接管理。
思必驰是国内领先的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发新一代人机交互平台(DUI),和人工智能芯片(TH1520);为车联网、IoT及众多行业场景合作伙伴提供自然语言交互解决方案。
思必驰成立于英国剑桥,2008年回国落户苏州,在深圳、北京、上海设立分支,与上海交通大学建立人机交互实验室Speech Lab, 2017年携手苏州市人民政府成立“思必驰-上海交大苏州人工智能研究院”。思必驰被列入国家发改委“互联网+”重大工程和人工智能创新发展工程、工信部人工智能与实体经济深度融合创新项目等。
以下是我爱音频网豆总对思必驰梅剑雄先生的专访内容:
我爱音频网豆总:
思必驰的语音算法之前用在智能音箱和智能家居产品上较多,为什么现在选择加入TWS耳机通话降噪算法赛道呢?
思必驰 梅剑雄:
思必驰一开始做的是语音评测,用在中英文口语教育的网络平台上,基于相关的技术积累,我们衍生出了全链路的智能语音语言技术,包括信号处理、语音唤醒、语音识别、语义理解和语音合成等。
最初思必驰用在车载、智能家居上的都是主AP或者是ARM架构的算法,它是一种复杂的大型算法。近一两年TWS真无线耳机市场发展迅速,尤其是在AirPods推出之后,我们发现这一市场对于降噪算法的需求也非常高,需要去做专门的适配。
比如说我今天早上赶到会场的这段时间,天下着雨我需要打伞,同时还背着包、拿着手机,断断续续打了十几个电话,如果当时戴的不是TWS耳机的话,那个画面是很狼狈的。同时,在车上、会场等多种环境下,没有通话降噪算法的加持,语音通话质量也会大打折扣,这就说明了通话降噪算法的重要性。
早期的TWS耳机品牌不太关注上行和下行的语音降噪效果,很多都是只需要一个简单的语音交互功能就可以了。但是现在TWS耳机产品进入品质竞争的新阶段,厂商们越来越重视,基于这个庞大的市场需要,思必驰越来越重视对真无线耳机通话降噪算法的投入。
我爱音频网豆总:
思必驰TWS耳机通话降噪算法的实现路径是怎样的?
思必驰 梅剑雄:
通话降噪算法有很多种方法可以去实现,思必驰目前做的是神经网络模型和盲源分离的技术路径同时进行。不过对于品牌商和用户而言,大家真正关心的还是最终能够实现的降噪效果,降噪效果好才是真的好。
我爱音频网豆总:
思必驰的TWS通话降噪算法对比市面上其他方案有哪些优势?
思必驰 梅剑雄:
思必驰采用神经网络算法,使用低比特位去量化,可以降低对RAM的需求,帮助品牌节省成本,也能够给其他算法如ANC主动降噪留出运行空间,或者让应用逻辑更丰富。这样一方面可以帮助客户节省成本,另外一方面是在相同成本的情况下,客户有空间去实现更多功能。
除此以外,思必驰的神经网络通话降噪算法还有三大优势,一是在地铁或风噪场景下人声保真度高,二是鲁棒性高,三是支持环境自适应。
传统降噪算法的数学模型简单,对实际信号具有普适性,可以充分利用语音信号的先验信息。保证各种场景的鲁棒性。思必驰收集了大量真实场景下的真实耳机录制的噪声数据和人声数据,模型架构采用深度卷积神经网络,能够比较好的学习建模噪声和人声频谱特征。
利用传统降噪算法和神经网络模型相结合的方式,思必驰将两者的优势互补融合,保证在各种噪声场景下,得到比较良好降噪效果,同时保证了人声的保真度。
再就是利用思必驰的神经网络模型,TWS主控芯片可以有效检测不同的佩戴状态、不同的场景(如地铁、骑行等),然后动态地开启不同的降噪参数。该接口可以对外开放,供ANC调用,同样利用神经网络模型去各种噪声场景的识别。
我爱音频网豆总:
通话降噪技术在TWS耳机产品上实现起来的技术难点是什么呢?
思必驰 梅剑雄:
TWS真无线耳机的结构形态和传感器有多种类型,对应多种不同的配置,需要不同的耳机降噪算法来适配。目前TWS耳机的通话降噪实现主要有四种方案,包括单颗麦克风、双麦克风、三麦克风、双麦克风+骨传导,不同结构配置需要运用不同的通话降噪算法,思必驰均有方案可以提供。
我爱音频网豆总:
针对TWS耳机通话降噪技术的难点,思必驰是如何解决的?
思必驰 梅剑雄:
在回声消除方面,由于远场人声信号能量非常低,通常比回声信号能量小20~30dB以上。传统信号处理,要么回声消不干净,远端一直能听到自己回声;要么回声消干净的同时引起近端人声很大的失真导致语音可懂度的急剧下降。
思必驰采用传统信号处理+深度神经网络模型的方案,一方面可以利用传统AEC线性层的稳定性和失真小的特性来消除一部分回声,剩下的残余回声,思必驰利用神经网络对麦克风信号与残余回声进行学习,从而起到抑制残余回声且尽可能不引起语音失真的效果。
在真实设备真实场景的测试集上,相比以往传统AEC算法,该方案可提升远场3米5米以上的双讲效果50%以上,极大提升通话过程中双方同时说话的体验感。
在麦克风阵列算法上,思必驰同样采用传统信号处理+深度神经网络模型的方案,一方面可以借助传统阵列算法的稳定性和失真小的特性来获取一定的语音增强效果;但对于一些瞬态噪声,如猫狗叫声、音乐声等,传统阵列算法是无法解决的,同时传统的去混响算法在麦克风数量大的情况下计算量也非常大,在设备端上往往无法跑起来。
因此,思必驰利用神经网络来学习这些噪声/混响,在预测出是噪声/混响后对其进行抑制,从而实现远场语音的降噪/增强。相比以往传统阵列算法,该方案可以提升25dB以上的信噪比,语音可懂度/清晰度提升20%以上,轻松覆盖3~5米正常会议/家居等场景。
我爱音频网豆总:
降噪算法需要依托芯片产品才能运行,思必驰是否有跟芯片厂商进行相关合作?
思必驰 梅剑雄:
其实思必驰已经在做这个事情了。我们有跟芯片原厂和方案商合作,把思必驰的算法为其芯片或者平台适配。除此之外还有一种模式,是我们与芯片厂商合作规划未来的产品,让芯片内置思必驰的通话降噪算法,比如杰理最近发布的AC7006D8,就内置了思必驰的神经网络处理单元(DNN),支持自适应通话降噪技术。这对于思必驰而言是一种很好的合作模式,既可以在技术上实现突破,也可以提高我们的品牌效应。
我爱音频网豆总:
思必驰为通话降噪算法设定了哪些应用场景?
思必驰 梅剑雄:
思必驰的通话降噪技术,简单说可以分为低功耗版本和大芯片也就是ARM架构的版本。低功耗的降噪算法主要用在耳机、手表还有手环这些小型设备上,大芯片版本可以用在平板、PC电脑这些产品上,近期我们还推出了一款“会议魔方”产品,采用六麦克风阵列前端信号处理+通话降噪算法,这些产品的使用场景和降噪需求都是不一样的,这几条产品线思必驰同时在运转。
我爱音频网豆总:
思必驰的通话降噪算法可以同时提供给多家芯片厂商、并且同时进行适配和优化吗?
思必驰 梅剑雄:
思必驰的通话降噪算法可以跑通多平台,我们在17年就开始做DSP芯片,像算法裁剪、算法的精简化和小型化等基础架构已经搭建好了,到这一步已经完成了80%左右,并不是从零开始做。为不同的芯片平台适配,就是针对不同的DSP去做优化,这个过程的工作量并不是很大,可以多平台同步去做。
举个例子,一家芯片厂商通常都会有高端芯片和中低端芯片,它们的差别可能是算力不一样,如果算力不够客户只需要某一部分的功能,我们可以沟通并对算法进行裁剪。
我爱音频网豆总:
能否透露一下,搭载思必驰通话降噪算法的新款TWS耳机会在什么时候发布?
思必驰 梅剑雄:
7月份将会有某一知名品牌的TWS耳机搭载思必驰的通话降噪算法,这将会是一个爆款产品,我爱音频网的粉丝朋友们可以多多期待一下。
我爱音频网总结
通过此次专访我爱音频网了解到,思必驰拥有全链路的智能语音语言技术,经验丰富,进军TWS耳机通话降噪领域有一定的技术优势。
思必驰目前主推的神经网络通话降噪算法具有算力和内存占用小、鲁棒性高、支持环境自适应、人声保真度高等优势,可以帮助芯片厂商快速开发新产品;另一方面,思必驰的神经网络通话降噪算法已对诸多品牌的主控芯片进行了适配和优化,对于品牌和方案商来说更加便利,可以有效提升TWS真无线耳机的通话质量。
随着在线会议、在线学习的普及,对平板、大屏、会议终端的通话要求逐渐提高,为了保证更远距离、更多人员、更复杂环境的通话效果,思必驰还在着力研究更远距离、多人对话的通话降噪算法。据悉,思必驰正利用自己的全链路智能对话技术优势,逐步加强算法和芯片的结合,其AI语音芯片未来还会应用在智能家居、智能车载等领域,推进更多传统行业的规模化和智能化升级。
标签: #d8算法