前言:
而今兄弟们对“关联规则挖掘的应用领域有哪些”都比较关切,大家都需要学习一些“关联规则挖掘的应用领域有哪些”的相关文章。那么小编也在网摘上汇集了一些关于“关联规则挖掘的应用领域有哪些””的相关资讯,希望兄弟们能喜欢,咱们一起来了解一下吧!关联规则是数据挖掘中用来描述事物之间相关性的一种方法。
它的核心思想是发现数据中项之间的频繁出现模式,并据此建立起它们之间的关系,这种关系通常用"如果…那么…"来表述。
例如,在超市的购物清单中,经常会发现牛奶和麦片同时被购买,这就是一种关联规则。
通常可以使用支持度和置信度来量化关联规则的强度。
支持度是指满足某一规则的交易的百分比,而置信度是指在满足前提条件的交易中,同时满足结论的交易的百分比。
举个简单的例子:
假设超市有以下 6 种商品:牛奶、面包、麦片、鸡蛋、冰淇淋和啤酒。我们对过去一段时间的交易数据进行分析,发现牛奶和麦片经常一起被购买,我们想通过关联规则来衡量二者之间的关系。
我们设定支持度阈值为 0.3,置信度阈值为 0.5。这意味着牛奶和麦片一起购买的频率必须大于 30%,而在购买了牛奶的交易中,也购买了麦片的比例必须大于 50%。
数据分析得出以下两条关联规则:
{牛奶} => {麦片},支持度为 0.4,置信度为 0.6{麦片} => {牛奶},支持度为 0.4,置信度为 0.8
这意味着,如果一位顾客购买了牛奶,那么有 60% 的可能也会购买麦片;反过来,如果一位顾客购买了麦片,那么有 80% 的可能性也会购买牛奶。这种关联规则可以帮助超市在商品陈列和促销方面进行决策,从而提高交易额。
支持度和置信度是用来评估关联规则的强度和可信度的。
支持度是指指定商品集出现的概率,也就是所有包含指定商品集的交易数与总交易数的比例。例如,假设有 1000 笔交易,其中有 400 笔包含牛奶,300 笔包含麦片,而有 200 笔既包含牛奶又包含麦片,那么牛奶和麦片的支持度为 200/1000=0.2,也就是 20%。
置信度是条件概率,表示在前提条件下某个结论成立的概率。举例如下:
假设超市的商品有 A、B、C、D、E 这 5 种,而交易信息如下:
交易 1:A、C、D交易 2:B、C、E交易 3:A、B、C、E交易 4:B、E交易 5:A、C、D交易 6:B、C、E交易 7:A、C、E交易 8:A、B、C、E交易 9:A、B、C、E交易 10:A、C、E
现在我们想知道 {A}->{B} 这条关联规则的置信度,也就是在顾客购买了 A 的前提下,有多少顾客同时也购买了 B。
首先,我们可以计算出同时包含 A 和 B 的交易数为 4。接下来,我们需要计算出购买了 A 的交易数,也就是 A 的支持度。A 出现在了 7 次交易中,所以它的支持度为 7/10=0.7。
最后,我们将同时购买 A 和 B 的交易数除以购买了 A 的交易数,就得到了{A}->{B} 的置信度,即:4/7=0.57。
这意味着,在购买了 A 的交易中,有 57% 的可能性也会购买 B。
标签: #关联规则挖掘的应用领域有哪些