龙空技术网

大数据进行预测不是采用因果关系,而是相关关系

书评导读 247

前言:

现在各位老铁们对“大数据分析强调因果关系而不是相关关系”大约比较看重,同学们都想要学习一些“大数据分析强调因果关系而不是相关关系”的相关知识。那么小编也在网络上网罗了一些关于“大数据分析强调因果关系而不是相关关系””的相关资讯,希望看官们能喜欢,你们快快来了解一下吧!

大数据进行预测遵循的是知道是什么就够了,没必要知道为什么。

“为什么会买”是因果关系,“买了这本就会买那本”是相关关系。有因果关系则一定有相关关系,但是反过来往往并不成立。人们用相关性强弱来形容两件事之间发生关系的概率大小。如果一件事发生了,另外一件事也会大概率发生,这称之为相关性强,反之则称为相关性弱。大数据预测未来的能力就在于这种相关性强弱的判定中。

利用相关关系,人们不需要找到原因,就能做出预测。这种预测首先用在那些能直接带来经济回报的场景。比如,保险公司通过收入、生活习惯、上网习惯等信息来预测对方是否患有严重的慢性病。母婴用品零售商通过购买的产品预测孕妇的产期,从而针对性进行促销。以上属于状态预测。

大数据还可以用来预测将要发生什么。比如汽车在出现故障前,都会有许多异常状况,通过分析异常对汽车进行维修保养,就能尽早地发现异常。这种技术大量用在机电设备、建筑物、汽车等物体上,它们都有一个共同点:停工带来的损失,远大于收集和分析的花费。

大数据对相关性分析也有改变。以往数据较小时,人们局限于有限的数据,只能采用简化的模型,将相关性采用线性模型来描述。也就是同样的投入,产出是相同的,这与人们的生活感受是不相符合的。

比如心理学家很早就发现一个事实,收入的提升一定会提升幸福感,但随着收入越来越高,同样的收入提升带来的幸福感越来越少,这就是非线性。当然,线性关系只有一个,而非线性关系理论上有无穷多个。所以,目前非线性关系的研究还处于摸索阶段。

大数据基于相关关系,而不是因果关系,这点和人们的思维习惯是相违背的,通常人很快就将连续发生的事情用因果关系来解释,即使因果关系实际上并不存在。这种思维方式在信息缺乏时非常有用,因为因果关系实际上是很难被证明的,快速决策避免了人的困惑,但是在大数据时代就不合时宜了。大数据时代只需要证明相关性即可,这会容易得多。

对于相关性的研究最终也有助于证明因果关系。比如美国电力井盖爆炸事故预测中,通过对历史数据的分析,最终找到最重要的两个影响因素,帮助电力公司查明了事故原因。毕竟知道结果之后,再来证明就很容易。

有人认为大数据只需要了解相关性,没必要了解因果性。因此得出的研究理论已经没有价值,这个观点在网上曾经引起巨大的争议。作者认为人们在收集数据时的偏好,分析数据时选择工具以及对数据解读,都需要理论的支持,所以“理论已死”是无稽之谈。

标签: #大数据分析强调因果关系而不是相关关系 #大数据分析强调因果关系而不是相关关系吗 #大数据分析强调因果关系而不是相关关系吗对吗