龙空技术网

黄河连线专访丨王宏志:如何成为大数据人才?(附彩蛋)

九州连线 78

前言:

眼前大家对“大数据算法王宏志百度云”大体比较关心,看官们都需要剖析一些“大数据算法王宏志百度云”的相关文章。那么小编在网摘上汇集了一些有关“大数据算法王宏志百度云””的相关内容,希望姐妹们能喜欢,朋友们一起来学习一下吧!

聚焦信息技术领域 为产业发声

导读

近两年,大数据开始充斥我们的生活。用大数据分析,购物网站可以更快地向我们推送我们更喜欢的产品;用大数据分析,智能APP可以帮助我们避免交通拥堵;用大数据分析,我们甚至可以知道CPI(中华人民共和国居民消费价格指数)......业内分析,预计2017-2020年国内大数据市场仍将保持30%的增长速度,到2020年大概接近600亿元规模。届时,大数据分析人才也将炙手可热。如何理解和认识大数据?大数据分析的过程是怎样的?如何成为大数据分析的专门人才?为此,黄河连线专访了哈尔滨工业大学的王宏志教授。以下为专访实录:

大数据并非总是褒义词

1.黄河连线:您是什么时候开始接触大数据的?

王宏志:在2000年我大三的时候,就跟随我的导师做大数据的相关研究。当时大数据还不叫大数据,叫海量数据,我所在的课题组主要研究数据库、数据分析、数据挖掘方面,现在这些研究都归属到了大数据研究领域,所以我研究大数据还是比较早的。

2.黄河连线:之后就一直从事大数据方面的研究了么?现在重点研究大数据的哪些方面?

王宏志:是的。现在我们的研究团队叫做哈尔滨工业大学海量数据计算研究中心。我们团队有十几位老师、四十到五十位博士和硕士研究生。目前的研究范围也比较广,包括大数据研究的整个链条:获取、传输、清洗、管理、分析、挖掘和应用。在应用方面,我们主要集中在医学、工业、生物和农业这几方面。

3.黄河连线:现在,大家都在谈大数据,不同领域的人对大数据有不同的理解,那么您是如何理解大数据的?

王宏志:大数据现在非常热,大家都在提。但是它在很多情况下并不完全是一个褒义词。维基百科、百度百科给大数据的定义基本类似:用现有的方法难以处理的数据叫做大数据。现在关于大数据的说法有很多,主要以处理难度、方法、价值的不同而划定,除了上述的说法,比较公认的说法包括:大数据是一种靠全量,而不是抽取方法研究的数据,或者是大数据是一种有大应用、大价值的数据资产。

现在人们谈到大数据,可能也有一些误解。

■ 第一,很多人认为凡是数据都是大数据。其实数据与大数据不同,大数据通常是指规模大、变化快、价值密度低、多元易购,但是数据和大数据之间并没有明显的界限,这取决于应用的需求。

■ 第二,大数据并不完全是一个褒义词,在一些情况下,指的是当前的手段难以处理的数据,从这个角度看,大数据是一个贬义词。

■ 第三,“大数据不太需要抽样方法,而是需要全量数据”,这并不意味着抽样方法不适用于大数据,在一些情况下,抽样方法对大数据处理也会起到一定的作用。

■ 第四,有的人把大数据等同于是云计算甚至是Hadoop,云计算和Hadoop都与大数据密切相关,但是大数据的范畴比它们要广得多。

■ 第五,大数据也是有相对性的,对于手机来说,1T的数据就是大数据,但是对于天河这样的高性能设备来说,1T的数据就不能算是大数据了。

此外,数据确实很有用,但是有时候数据是会欺骗人的。机器学习著名专家迈克尔·乔丹曾经说过一句话:大数据真正得到使用是在几十年以后。当然这句话是有些悲观,但是大数据结论分析确实会存在有很多错误和无用的情况。

比如说,有一次参加会议,一位专家说之前研究发现,一个城市丢失车辆的数量和医院的数量是呈正相关的。这听起来很奇怪,但其实是很好解释的,人多医院就多、人多丢失车辆也多,因此这两件事并没有很大的直接关联,这个结论也没有很大的价值。因此大数据的结论也是要需要考察其真实性和价值性的,否则在应用的时候就会出现问题。

4.黄河连线:有一种说法叫做“有用的数据才叫做大数据”,您怎么看待这个问题?

王宏志:数据是否有价值,这是因时而异的。以前觉得没价值的数据,到了需要的时候就变得有价值了。比如一家企业的领导比较有战略眼光,在制造设备时把设备运行数据全都采集回来,存储到硬盘中。平常的时候没有用,但是在设备出现故障的时候,就可以通过这些数据来进行故障排查。这些数据在之前是没有用的信息,在这时候就发挥了它的价值。所以说数据是否有价值,是与时俱进的,这依赖于数据的积累,也依赖于研究人员的技术水平。

但是大数据确实有一个特点,就是价值密度比较低,大数据分析是一个沙里淘金的过程。比如在网上购物的评论信息,80%的评论都是没有价值的,比如“很好”、“哈哈”。但是剩下的评论会包含很多对产品改进有用的部分,这就涉及到观点挖掘和情感分析领域了,这是大数据应用比较重要的一块。

大数据无处不在

5.黄河连线:生活中的任何数据都可以直接用于大数据分析吗?一般怎样获得可以用于分析的大数据呢?

王宏志:生活中大数据采集设备无处不在,生活中的所有数据都可以当做大数据来进行分析。比如手机采集了我们非常多的信息,步态、步数、位置等,这些都会被手机收集起来。还有监控系统也可以收集信息,我们国家的破案能力很高,这很大情况下得益于无处不在的监控。

目前我们在数据的存储和分析上,在技术手段上还存在一些问题,从而导致了分析的不充分。比如一些视频经过3个月或是半年就要被删除,这么多珍贵的数据就等同于没用了。其实这种情况也出现在一些工厂中。工厂中的视频监控可以记录技能水平较高工人的操作,把这些通过大数据分析,可以得到很多对生产工艺有价值的东西。但是这些监控保存时间并不长。还有医院中的医疗影像、医疗诊断数据对于未来的智能诊断非常有价值,这些都可以运用大数据进行分析、处理并产生价值。

大数据的获得渠道非常多,我们处在大数据无处不在的时代,每个人每时每刻都为大数据提供着数据来源。

6.黄河连线:得到可以用于分析的数据之后,还要经过哪些工作,才能分析出有用的结果?

王宏志:得到可以用来分析的数据,要进行一系列的工作,才能得到想用的结果。首先需要从应用角度做顶层设计,比如数据有什么样的模式和架构;其次需要通过信息集成,包括模式匹配、数据对齐等技术打破信息孤岛,因为我们不能保证来自各地数据的模式和形式一样。第三,需要对数据进行清洗,控制数据质量、删除错误数据。第四,数据管理也要做好,保证数据有效存储,即存得下、查得出,这时候才能确保任务的时效性、数据量、计算设备来设计相应的算法。还有就是在这整个过程中,还涉及到数据安全和隐私保护。

7.黄河连线:大数据可以用来做什么?有哪些比较有趣的应用?在您从事大数据研究的过程中,有没有一些让您印象深刻或者很有趣的应用?

王宏志:比如说我们实验室做过一个项目,是在东北的寒温带地区种植蓝莓。但是蓝莓对生长环境比较挑剔,之前的做法是需要进行人工培育,频繁地查看蓝莓的情况,这是十分花费人力的。后来我们研发了一套数据采集装置,这样就可以远程判断蓝莓生长所需的环境是否出现了变化,可以更加有效率、更加及时地发现和解决一些问题。

这也运用到了物联网技术,物联网是大数据十分重要的数据来源。到了21世纪,云计算、物联网、大数据的关联十分密切,这其中也是有因果关系的。没有云计算,是不会有物联网的。有了物联网,数据越来越多,数据快速积累就有了对大数据的需求。大数据的发展,又推起了人工智能的热潮。

我之前还听说过一家电视机生产厂家的大数据分析的案例,电视机产量不稳定一直困扰着电视机厂,通过对历史数据的分析,发现了困扰他们很久的产量不稳定问题,居然是与车间的气压相关的。气压与产量看似是没有联系的,也是难以想到的,如果没有大数据分析,这个问题很难被发现。

在生活方面,阿里巴巴有自己的一套CPI指数(居民消费指数)算法,根据人们网购的价格计算CPI,结果与国家发布的CPI指数不相上下,而且这种方法成本更低,与老百姓生活更贴近,还可以更加精准、快速地反应物价的变化,这是通过大数据分析得出的。还有智能交通、地震和海啸预警、传染病预警、车辆故障预警等等,都是大数据应用的实例。

8.黄河连线:您刚才提到了农业、工业方面的案例,那在我们生活中常遇到的购物网站自动推荐我们每个人喜欢的不同产品,这是否也是大数据分析的一个应用?我很好奇它是怎样分析出我的喜好的?

王宏志:个性推荐系统是大数据产生价值的一个非常重要的应用。个性推荐系统的搭建步骤和大数据分析的步骤大体来说是一样的。首先要解决信息来源问题,是要依赖于用户浏览和购买行为、用户特征还是用户历史购买的商品。包括相似信息,数据从不同渠道收集之后,需要做信息对齐,要把具有相似行为的人进行归类或是把不同数据源的信息进行对齐,来协同使用。之后就是解决数据质量和数据管理问题,把这里边的错误去掉,存储结构和索引结构,保证数据能高效分析,最后就是推荐算法的选择和设计。

对个人喜好的分析其实并不神秘,在我们搜索、浏览、购买的时候已经比较明显的暴露了我们的偏好,不仅如此,跟我们类似的人的偏好也暴露出来了,如果系统知道这些数据,并经过分析,这是很容易分析到我们的个人喜好的。

如何成为大数据人才

9.黄河连线:通过您上面的介绍,感觉大数据分析是一个很有意思的工作,那么要成为大数据专门人才需要具备哪些素质呢?

王宏志:大数据是一个长的产业链,因此所需的从业人员也是一个完整的人才链。在我看来,在数据产品开发中,首先是需要和生产一线的人进行沟通,这就需要有大数据从业人员把诉求转换为实际软件需求。第二,是需要数据科学家、架构师,把实际需求转化为数据分析模型、数据分析系统架构等。第三,需要系统工程师和算法工程师,把模型变成算法,把算法融到一个有机的系统中,进行系统的研发;最后还需要有系统运维工程师,大数据的管理和分析系统规模比较大,需要有专门的人才来保证大数据系统持续、稳定运行。这里边需要有很多角色,每个角色需要的素质是不完全一样的。

10.黄河连线:在对大数据进行分析的时候,有没有一些很困难的工作?从您个人的成长经历和教学经验来看,应该如何克服这些困难呢?

王宏志:我可以根据我的经验谈几点。一是大数据分析是有限制的,是“带着镣铐在跳舞”。因为大数据规模很大,对存储设备和处理时间有很多要求,比如有的数据需要秒级处理,时间点一过就没有任何用处了。比如心脏病、脑梗的预警。所以在做大数据分析的时候,需要着重考虑很多限制因素。这也给了学术界带来了很多新的研究机会。

第二,目前关于大数据计算的理论基础还不是很健全。因为过去计算复杂性理论通常是假定多项式时间归约,但是这种假设在计算大数据复杂性相关的证明中可能是不适用的。因此传统的理论基础发展到大数据时代,需要一些新的理论和方法,这些正在探索中。

第三,大数据分析的又一难点在于做实验。因为大数据的相关实验需要规模比较大的机器,配置机器还需要各种软件并进行调试,同时涉及到大规模数据,实验周期也比较长。另外,数据来源和数据应用也是个很大的问题。在实际应用上,做数据的人一般不太会做业务,会做业务的人又不擅长做数据,所以在实际应用中,需要双方很长时间的沟通和磨合,才能很好地解决这个问题。

11.黄河连线:您可否给希望学习并从事大数据分析工作的人一些学习方面的建议?

王宏志:大数据方面的书非常多,入门级的书籍有《大数据时代》等,这个的学习门槛不是很高,但是作为一个专业的程序人员,还需要学习一些关于开发方面的知识,比如各种相关数据的使用。而作为数据科学家,从统计和机器学习这方面入门比较好,吴喜之老师的《复杂数据统计方法》和周志华老师的《机器学习》是这两个领域比较有名的书。

如果接下来还想精通的话,可能就需要学习大数据方面比较专门的知识和技能了,要学习数据库系统实现、数据库原理、分布式系统、统计学等方面的书,这方面机械工业出版社都有比较经典的作品。为了补充市场上的空缺,我个人也写过两本进阶阶段的书籍,一本是《大数据算法》,另一本是《大数据分析原理与实践》。

在学习过程中要十分注意,大数据领域链条比较长,需要的角色很多,在学习大数据的时候,要找好自己的定位。如果想要把所有关于大数据的知识全都掌握,那是非常困难的。

声明:

部分图片来源于网络

黄河连线系太原九州连线文化传媒有限公司旗下品牌

本平台法律顾问为山西晋商律师事务所

黄河连线原创文章,转载请注明出处

标签: #大数据算法王宏志百度云