龙空技术网

数据挖掘,能挖出来什么

AI科普系列 145

前言:

此时姐妹们对“数据挖掘实验总结”大概比较关注,兄弟们都想要剖析一些“数据挖掘实验总结”的相关知识。那么小编同时在网络上搜集了一些有关“数据挖掘实验总结””的相关文章,希望各位老铁们能喜欢,姐妹们快快来学习一下吧!

摘要:数据挖掘(Data Mining),号称能从数据里面挖“金子”,到底能够挖掘出来什么,对商业社会和其它行业的诸多场景有什么用处?本文通过几个案例,做一个简单回顾。

数据挖掘与AI是什么关系?

二者高度相关,互相渗透。

相同之处:底层的很多技术和原理是相通的,很多的算法模型,都是二者共用,很难进行清晰的分割。AI里面的机器学习技术近几年发展很快,其中的一些新算法几乎都可以用于数据挖掘。曾经有人认为AI里面才用到神经网络,数据挖掘不需要它,这显然是片面的。一些统计学方法作为数据挖掘的基础,在AI领域有时候也能展现出出人意料的效果。

不同之处:主要是应用目标不同。数据挖掘,也被称为知识发现,主要是从数据中发现那些人们凭借直觉很难察觉到的规律、模式和知识,以便人们做出更优化的决策。而AI则主要是模拟人类智能的各个方面,如感知、推理、学习、规划和决策等,让计算机表现出智能的行为。

“数据挖掘”这个词现在似乎不怎么火热,以往普遍把它归为商业智能(BI)的一部分,现在更多被归类为AI的范畴。有人将数据挖掘直接视为AI的一部分,似乎也无人强烈反对。

可能没必要在名称上强行区分二者。

这样说,还是有点抽象。

从应用角度看,AI好像离我们更近一点,我们知道AI能下棋、自动驾驶、疾病诊断、人脸识别,跟人聊天,帮我们写文章,等等,我们越来越多地感受到它的进步和无处不在,比较好理解一点。

但对数据挖掘,还是比较生疏。你能举几个例子,说说数据挖掘到底是做什么吗?

最早广为流传的一个例子,可能就是“啤酒与尿布”的故事了,在很多文章和教材中都被提到。

传闻,一家超市通过分析销售数据发现,周末购买尿布的消费者中,购买啤酒的比例也很高。惊讶之余,超市重新摆放了商品,把啤酒和尿布放在一起,结果二者的销售额都得到了提升。

深入调查背后的原因,发现是年轻的父母有了新生孩子后,很多家庭是由父亲来买尿布,他买完之后,会顺便奖励一下自己,捎上几罐啤酒,用于周末看球赛时享用。

这个发现出人意料。

但看起来还是有点被动,属于事后的发现。有更主动发现的例子吗?

也有。

另一家零售商场,用数据挖掘技术分析客户购买模式,能够识别客户(或客户家人)是否怀孕了,甚至有时比客户自己更早地意识到这一点。他们发现客户如果购买了无味乳液、钙和镁等补充剂,则很有可能是怀孕了。挖掘出这条知识后,他们就可以采取行动,将相关商品的折扣券定向发送给这类客户,吸引其前来购买。

这会不会涉及到隐私泄漏,引起法律纠纷?

是有这个风险。所以必须严格遵循法律法规,只在客户同意使用其行为数据用于数据分析的前提下,才去做相关的数据操作。这是另一个话题了。

能举一个有具体效果数据的例子吗?

我们来看一个早期游戏行业的个性化推荐的案例。

某款游戏以前推广游戏道具的方式比较简单,就是向全体玩家群发新上架的道具信息,但其实某些玩家在当时并不想购买,而且群发消息容易造成对玩家的骚扰,甚至激起玩家反感,因此效果不佳。于是数据挖掘人员根据玩家在游戏中的表现(在线时长、胜负比率等)、近期消费行为和账户余额情况、近期已购买道具情况,预测出各玩家尚未购买、但又感兴趣、很可能愿意购买的若干个道具,然后向其做有针对性的推荐。

实施这套方案后,玩家购买道具的金额相比于以往群发方式,人均增长了79%。

这个增幅很惊人。看来,通过数据挖掘实现精准营销,有助于提升企业的销售额。

不过,可能一些人不太玩游戏,感受不深。能举一个大家更有切身体会的例子吗?

举一个大家普遍关心的教育领域的例子吧。

有人曾经研究葡萄牙的两所中学的学生成绩,想找出学生成绩主要与哪些因素有关,并找出提高成绩的办法。

他们首先搜集数据,从学校档案里,以及后来的调查问卷中,了解每个学生的这些信息:年龄、性别、住址类别(住在城里还是乡村)、家庭人口数、父母在一起还是离异、父母亲受教育程度、父母亲工作类型、监护人是谁、通勤时间(从家里到学校耗时)、每周学习时间、有无参加课外活动、是否有升学意愿、家里能否上网、家庭关系质量、学生健康水平、年度旷课次数等,一共28项信息。

对这些数据使用数据挖掘,能发现什么?

首先发现了高分学生、低分学生的一些特征。比如说,

有一类高分学生,他们的特征是:年龄<16.5岁,性别为女,旷课少于5次,母亲没受过高等教育,其平均成绩为76分。(100分为满分)一类低分学生的特征是:年龄<17.5岁,没有旷过课,母亲受教育程度为初中或更低,一周学习时间<2小时,其平均成绩为27.5分。另一类更低分的学生,其特征是:年龄>17.5岁,没有旷过课,母亲受教育程度为初中或更低,其平均成绩只有14分。

这些发现有启发性。不过,我估计一些有经验的老师,长期在一线教学,对学生情况很了解的话,也能得出差不多的结论吧。非得用数据挖掘吗?

的确,有经验的老师经过长期积累,脑海里也能建立起差不多的认知,但是,他们一般得不到数据挖掘那么系统、全面的结果,因为人的思维能力终究有限,当要考虑的因素太多(这里有28个待考虑因素),光靠人脑,很容易遗漏,一般超出3-4个因素,人就很难把握住了,而且一般也得不到类似于“年龄<17.5岁”这种定量判断条件的。

年轻老师虽然经验不足,但借助于数据挖掘工具,也能得到与老教师相当、甚至超越老教师的知识,那何乐而不为呢?

在电脑(数据挖掘)比人脑干得更好的情况下,或许没必要拿人脑与电脑拼。

这个例子里面,还能找出一些什么规律吗?

还发现一些因素具体是如何影响学习成绩的,即一些定量上的关系,例如:

年龄每增加1岁,成绩降低2分;家庭成员每增加1人,成绩降低4分;父母受教育程度越高,成绩越好;上学路途耗时每增加15分钟,成绩降低2分;一周学习时间每增加2小时,成绩提高3分;想升学(有学习目标),相对于不想升学,成绩高12分;每多旷课1天,成绩就提高0.15分。

(为简化起见,一些数值做了四舍五入。)

前面几条,应该还说得通,符合我们的预想。但最后一条,有点违反直觉,为什么越旷课,成绩还越好?

这一条之所以被挖掘出来,很可能还是数据量不太够,当时只搜集了395名学生的资料,会带来一些不确定性和误差。

数据挖掘的流程中,还会从统计学角度,分析挖出来的每一条新知识的可信程度。关于最后这一条,很可能它的可信程度并不高,因此可以忽略,不用太担心。

发现的这些知识,是对每一个学生都有效,还是对学生群体有效?比如说,如果学生Bob每周增加2小时学习时间,那么他的分数就一定能从原来的63分增加到66分吗?

这些知识是针对学生群体的,是一个平均情况,即如果一群学生的每周学习时间平均增加2小时,则他们的平均成绩将增加3分。具体谈论到某一个学生时,则有个体差异,不一定这个学生刚好增加3分。

那也不错,这些知识还是有指导意义的。

学生家长如果看到这些结论,可能会去想,为了提高自己子女的成绩,后续的努力方向在哪里,比如说:应该努力提高自身的受教育程度,搬家到离学校更近的地方居住(减少通勤耗时),督促孩子适当增加每周学习时间,并早早树立升学目标,等等。

是的。这就是数据挖掘的用处,可以对家长的决策提供支持。

其实,在这个例子里,研究人员只搜集了关于学生的28项信息,你有没有想过,如果同时还搜集教师和学校的信息,那么是否也能挖掘出来,教师和学校应该如何努力,才能提高学生的成绩?

对呀。完全可以举一反三。设想一下,如果在以上28项信息的基础上,增加这些项:

教师的基本属性:年龄、性别、学历、教学年限、教学方式特点等;教师的行为:课堂提问次数、安排小考次数、布置作业量等;学校的行为:对教师的考核方式、对学生的激励方式、课程设置等。

那么,应该就能挖掘出,为了提高学生成绩,教师和校方应该如何做了。

正是。不过,搜集数据时,涉及的教师数量、学校数量,也要足够多才行。

相信教师和校方在多年实践中,对于提高学生成绩也积累了丰富的经验,但如果采用数据挖掘,说不定还能发现一些盲点,即平时被忽视的因素作用,然后据此做一些措施调整,相信能得到更大的收获。

还有一个方便之处:在成本允许的条件下,你可以把你想到得的所有可能的影响因素数据全部搜集起来,数据挖掘工具会自动判断哪些是主要影响因素,哪些是次要的,并不需要我们事先做手工筛查(既低效也不够准确)。—— 也就是说,数据挖掘能以科学的方式,帮助我们抓住主要矛盾,定位主要影响因素,避免人类思维可能因各种干扰而执着于某些次要因素上。

在上例中,分析发现,“家里能否上网、家庭关系质量、学生健康水平”等几项信息几乎从来没有出现在结果中,暗示着它们不那么重要,是次要因素,对成绩影响不大。

还有什么令人惊奇的数据挖掘例子吗?

有一个数据挖掘帮助抓坏人的案例。

美国洛杉矶和圣塔克鲁兹两个城市的警察局,借助于一种数据挖掘算法(从地震余震预测算法改造而来),根据城市积累了80多年的详细犯罪数据,预测各个区域未来某天的发生罪案的类型和概率,并以此为依据,对警力配置和调度做出优化。换句话说,可以对该天犯罪概率高的区域增派警力,甚至提前蹲守。这套算法投入使用后的那些区域,灭罪效果很明显,入室盗窃和暴力犯罪分别下降了33%、21%。

这确实很管用。

还有别的例子吗?

还有很多,比如:

根据应聘者简历,判断其将来的发展潜力,作为是否录用的依据之一;电子地图的导航,预估你开车从起始地到目的地所需时间;城市智慧交通里,对交通控制(包括红绿灯)进行优化,提高通行效率;鉴定飞天茅台酒的真伪;科研:通过分析从大型强子对撞机(LHC)收集的大量数据,成功发现希格斯玻色子,这是一种有助于解释宇宙质量起源的基本粒子。

还可以列举很多。十多年前,某互联网公司对自身业务,整理出了86个数据挖掘可应用场景,如今业务更复杂,数据更多,可应用之处也应该更多了。

看起来,只要有数据,就可以用数据挖掘找出数据之间的关联关系,用于判断和预测了。

也不能迷信它。数据挖掘是一把利刃,但对某些情况,即使有数据,它也挖不出来你想要的东西。

哪些情况?

例如,

仅仅根据用户的登录和浏览行为数据,想判断其是否为“开百万豪车的家庭主妇”;赌场二十一点猜牌;下一期彩票中奖数字;某只股票次日的收市价。

第一个例子,感觉很难判断准确,已有的数据与目标任务之间的关联太弱了。

后面三个如果真能做到,世界就要大乱了。

是的。数据挖掘不是魔术,当缺少必要的辅助信息,或者问题本质太复杂、太随机,几乎没有规律可循,它也无能为力,即使勉强得到一些精度极差的低质量结果,也没有应用价值。

如果用到合适的地方,数据挖掘的价值还是很大的,它让人们在做出决策前更有底气,比拍脑袋乱猜强多了。

标签: #数据挖掘实验总结