从语音、视觉、语义到算法，百度大脑 5.0 全方位升级

品玩 09-03 329

前言：

现在我们对“视觉算法百度云”大约比较关注，各位老铁们都想要剖析一些“视觉算法百度云”的相关文章。那么小编也在网摘上网罗了一些对于“视觉算法百度云””的相关知识，希望各位老铁们能喜欢，大家快快来学习一下吧！

2019 年 7 月 3 日下午，百度 AI 开发者大会的百度大脑分论坛举行。

在上午的主论坛上，百度首席技术官王海峰正式发布百度大脑5.0。百度大脑 5.0 在算法突破、计算架构升级的基础上，实现AI算法、计算架构和应用场景的融合创新，成为软硬一体AI大生产平台。下午百度大脑分论坛上，相关业务负责人分别详细介绍百度大脑各能力具体的进展。

语音识别及合成技术升级，推出远场语音交互芯片

百度语音技术部高级总监高亮介绍，识别方面，百度提出流式多级的截断注意力模型SMLTA，这是国际上首次实现局部注意力建模超越整句的注意力模型，也是国际上首次实现在线语音大规模使用注意力模型。

SMLTA在大幅提升识别速度的同时，也提高了识别准确率。在输入法有效产品相对准确率提升15%，音箱有效产品相对准确率提升20%。

合成方面，针对现阶段面临风格迁移、音色模拟和情感拟人的三大挑战，百度推出语音合成技术Meitron，可以将语音中的音色、风格、情感等要素映射到不同的子空间，在使用时，不同要素可以任意组合，灵活的控制合成语音的风格。同时降低语言合成门槛，仅需20句话就可以制作一个人的专属声音。

对于落地应用正在端侧呈现出巨大需求，百度大脑语音团队研发出一款针对远场语音交互打造的芯片——百度鸿鹄芯片。

鸿鹄芯片采用“软件定义芯片”的全新设计思路。该芯片采用双核HiFi4架构，2.8M大内存，台积电40nm工艺，在此硬件规格上，100mw左右平均工作功耗，即可支持远场语音交互核心的阵列信号处理和语音唤醒能力。同时，按照车规级标准打造的鸿鹄芯片，可为车载语音交互，以及智能家居等场景带来更大想象力。鸿鹄芯片流片的同时，即实现了量产。

视觉语义化平台升级 2.0，机器人应用成新亮点

百度视觉技术部、增强现实技术部总监吴中勤介绍，5G时代，越来越多物理设备将连接到高可靠、低延时的网络空间，这将彻底改变人们与环境及设备的交互方式。本次全新发布视觉语义化平台2.0，正在推进视觉技术由“看清看懂”向“交互”进行升级。视觉语义化平台2.0在交互升级和软硬件结合两大方面实现突破。

交互升级包含一体化人机交互系统和大场景物理世界交互系统。简单而言，一体化人机交互系统是人与机器、虚拟环境的自然交互与融合，该系统适用于实现AR特效的直播、小视频、特效小程序等场景，已应用于百度多款视频App。大场景物理世界交互系统是将视觉定位与AR技术突破性结合，实现大范围的虚拟信息与物理世界的精准叠加，从而建立起AI时代全新的交互系统。

目前，软硬件结合可以满足应用场景更高效的视觉计算，以及更低延时的体验，同时能保护数据隐私。百度视觉方面的软硬件结合主要聚焦于模型压缩平台PaddleSlim、多模态FaceID开发组件以及软硬件一体解决方案AI相机三部分。FaceID覆盖设备量已超1200万台。

视觉语义化平台2.0更新了许多先进的感知技术，也让机器人技术实现新突破。百度三维视觉首席科学家杨睿刚介绍，机器人就是一个智能体，除了感知技术，智能体需要决策和动作相关的技术，实现从环境感知到主动感知。

目前，百度研究的智能体技术主要集中在自动驾驶Apollo、工程机械和服务机器人三大方面。上午主论坛中引人关注的机械臂“茶博士”不仅能说会道，还完成了传统的长嘴壶倒茶工作，其背后依靠的正是服务机器人方案。

基于百度3D视觉，机器人可以对茶杯的位置进行检测和追踪。通过机器人运动规划和控制，机械臂可以对工作空间进行碰撞检测，避开障碍物；实时规划运动后，可自动生成倒茶轨迹；随后，感知水流变化，实时调整倒茶位置。语音语义联动技术解析，更是让机器人像“人”一般，听得懂，说得好，做得准。

更强的语义理解框架，更高效的行业知识图谱

在语言和知识技术方面，百度大脑也公布了一系列创新和突破。百度AI技术平台体系执行总监吴甜向介绍，百度设计并实现了知识增强的语义理解框架——ERNIE。

这一框架具备可持续学习能力，核心模型能力不断提升。目前，ERNIE累计学习了超10亿知识，全面刷新中文NLP任务的指标，在百度众多产品应用中提升效果。机器同传方面也有最新进展，在翻译过程中对语音识别结果进行纠错的联合词向量编码技术，可解决多轮翻译一致性和连贯性问题的语篇翻译模型等，结合先进的语音技术，百度大脑实现了高准确、低时延的机器同传技术。

此外，吴甜还正式发布行业知识图谱平台和智能创作平台2.0。

行业知识图谱平台旨在满足各行各业构建和应用知识图谱来帮助推进智能化的需求，行业知识图谱平台基于领先的知识图谱核心技术，提供智能高效的知识生产流程、低成本启动和跨行业迁移的能力，帮助产业开发者定制行业知识图谱并应用。

全新的智能创作平台集成了实时热点追踪、关联丰富素材，已经具有全面的创作辅助能力，可轻松解决传统内容创作面临的问题，全流程助力创作者，吴甜也预告了10月份将进行邀测的多模态自动创作功能。

目前，百度已构建百度大脑·语言与知识技术开放平台，不仅有丰富的基础技术，还形成了包括智能创作平台在内的翻译开放平台、UNIT平台、知识图谱构建与应用平台共四大应用级平台，为不同领域提供百度领先的语言与知识技术。

AI 时代的计算架构

百度大脑5.0不仅包含算法层面创新，在算力方面也实现重大突破。近年来，算法对算力需求增长近300,000倍，而芯片的计算性能仅提升30倍，两者之间存在巨大鸿沟。

百度副总裁侯震宇为现场观众分享了百度新一代AI计算架构。面对AI计算的挑战，需要能够从端到端来提供AI计算能力，这要求计算系统从旧有的对海量数据处理能力、对IO高峰值的追求，转变为满足AI训练功能方面IO密集、计算密集、通信密集的需求，和AI推理功能方面大吞吐和低延迟的需求。

飞桨的五个优势

侯震宇认为，面对即将到来的AI+5G时代，计算将无处不在。真正的计算会发生在设备（Device）、边缘（Edge）和云（Cloud）中，因而D-E-C场景将会是接下来需要重点研究的问题；与此同时，包括芯片之间、系统之间、设备之间的互相连接，将帮助不同场景中的计算连接在一起，产生更大的计算力。

底层的芯片和上层的应用之间，还需要操作系统承接。王海峰认为，深度学习框架就是智能时代的操作系统。百度自研的国内唯一功能完备的深度学习平台“飞桨”就是中国自己的“AI操作系统”。

主论坛中，百度正式宣布飞桨与华为麒麟芯片深度对接，全球领先的端侧AI芯片和深度学习平台，将联合为端侧AI提供最强劲算力、打造最好的深度学习运行效率。

而在分论坛现场，百度深度学习技术平台部总监马艳军详细介绍了飞桨的五大核心优势。

在核心框架层面，飞桨同时支持动态图与静态图，兼顾了灵活性与效率；

飞桨提供了70多个官方的、达到工业级应用效果的模型；

飞桨支持大规模的分布式训练；

飞桨支持端到端部署；

对于中国开发者，飞桨提供系统的深度学习技术服务，有非常全面的中文支持。

源于产业实践的深度学习平台飞桨同时亦正在反哺产业。百度地图事业部总经理李莹以交通领域为例，介绍百度地图基于飞桨提升了ETA（预计到达时间）的开发、调试的便捷性和训练效率，完成了天级别的百亿级数据训练；提升了ETA的部署和预测性能，支撑了天级别的百亿次调用。

ETA是地图路线规划的主要特征，也是用户出行决策的主要参考因素。对于用户而言，飞桨赋能的百度地图ETA可以实现通行时间智能预估，在出行前便可提前预知路况，避开拥堵时段、了解拥堵时长、躲避拥堵路线，合理规划出行时间。

据悉，百度大脑目前已经开放210余项领先的AI技术能力，平台的调用次数同比增长108%，定制化平台模型的数量都在飞速增长，平台上的开发者数量已经达到了130万。

本文地址：http://www.longkongtuishu.com/caf05BA1sBFUFAFZR.html

标签： #视觉算法百度云

从语音、视觉、语义到算法，百度大脑 5.0 全方位升级

从语音、视觉、语义到算法，百度大脑 5.0 全方位升级

计算机视觉经典-计算机视觉：算法与应用第二版

管交通、查违章：10+顶会冠军后，百度推出城市视觉感知算法引擎