龙空技术网

在职场,你不能不懂的数据分析知识——关联分析

老吴讲数 101

前言:

现在同学们对“关联分析的定义”大约比较珍视,咱们都需要了解一些“关联分析的定义”的相关文章。那么小编也在网上搜集了一些对于“关联分析的定义””的相关知识,希望大家能喜欢,兄弟们一起来了解一下吧!

数据分析是职场人士必备的技能,不仅是从事市场研究,金融分析,还是做电商运营,都少不了用数据分析去解决实际业务问题。这里简单介绍下数据分析最常用的分析方法,将算法划分为3类。

关联类:主要是通过数据挖掘发现数据间“隐含的关系”,针对出现的症状寻根问源,发现现象背后出现的问题。最经典的算法就是关联规则,最经典的案例就是尿布啤酒购物篮。

描述类:重点“是什么”,通过对数据的解剖,望闻问切去寻找问题。像一般的文本分析,数据可视化都是描述类分析的手段。运用的算法有聚类分析,主成分分析等。

预测类:重点在“为什么”以及将会“发生什么”,从对规律的提炼和轨迹的分析,进而预测未来。常用的算法有逻辑回归,时间序列,人工神经网络,决策树等。

今天主要讲下关联规则在实际业务问题中的一些应用。

关联规则:关联规则算法一开始就是为了解决购物篮分析问题而提出来的,而最经典的案例就是“尿布和啤酒的故事”,也许这个经典的案例你听过无数次了,但为了给大家针对这个的案例背后的算法延伸,这里我也简单介绍一下。

尿布与啤酒

这其实是一个现实发生的事情,是美国沃尔码大型连锁超市的真实案例,而且因为这个案例十分经典,也一直出现在各大教材和数据挖掘与分析培训教案中的经典案例。

现象:在美国某一家超市里,出现一个十分有趣的现象:该超市将啤酒和尿布陈列在一起进行出售,而正是这一简单的调整,在短时间内,啤酒和尿布的销量都有了显著的增长。

数据分析发现原因:沃尔码自有的门店销售系统每天都会产生大量的交易数据,其数据仓库中集中了各个门店的详细原始交易数据。沃尔玛用数据挖掘的研究方法在这些原始数据的基础上进行分析和挖掘,一个让所有人意想不到的发现是,“购买尿布同时购买最多的商品竟然是啤酒”!分析其背后的消费行为,发现一个现象,在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。而主要是因为美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫在购买完尿布之后,都会到啤酒区选购自己喜欢的啤酒。

采取的举措:正是通过对现实数据的挖掘,了解到数据呈现背后的故事,所以,为了促成销售的双增长,沃尔码决定,在所有的门店都将尿布和啤酒陈列在一起进行出售,这样极大的减少了消费者的购买决策时间,照顾了该群体的消费体验,因此,最终实现了尿布与啤酒销售共同增长。

通过这个案例,我们注意到了沃尔玛先是对交易数据进行了数据挖掘,才发现美国丈夫会存在这一行为模式的。那这运用到的数据挖掘算法其实就是“关联规则”,这里先简单介绍一下关联规则最经典算法:Apriori算法。

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。说的简单一点就是找到占比最大的所有商品两两出现或者多个一起出现的子集。其中涉及两个主要概念:最小支持度和最小置信度,其实就是概率和条件概率。简单介绍此方法,如果有兴趣深入研究的话可以查找相关的资料。

这里再讲下关联规则能应用在哪些业务中,希望能给你一些启发。

关联规则和商品推荐:像上面提到的购物篮问题,就是属于这类。其实在实际中,还能应用到很多地方,比如淘宝服饰店铺的穿衣推荐,旅游地点的推荐,基本思路就是通过发现过往交易数据或者用户浏览数据形成商品间的强关联,再将这些相关联的商品捆绑销售或者智能推荐,极大的撬动消费者的消费兴趣。

今天给大家提供一个分析思路,希望能对你有所启发!文章内容关于关联规则可能没有讲的过于深入,有兴趣的话可以在下发留言。

标签: #关联分析的定义