龙空技术网

比肘法elbow更好的聚类度量方法

AI火箭营 227

前言:

今天大家对“轮廓系数多少比较好”大体比较看重,大家都想要剖析一些“轮廓系数多少比较好”的相关文章。那么小编同时在网络上汇集了一些对于“轮廓系数多少比较好””的相关内容,希望兄弟们能喜欢,你们一起来学习一下吧!

聚类是利用数据科学的商业或科学企业的机器学习管道的重要组成部分。顾名思义,它有助于识别数据团中密切相关(通过某种程度的距离)数据点的聚合,否则,这些数据将难以理解。

然而,大多数情况下,聚类过程属于无人监督的机器学习,是一项混乱的业务。没有已知的答案或标签来指导优化过程或衡量我们的成功。我们处于未知领域。

无监督学习

聚类和降维:k均值聚类,层次聚类,PCA,SVD。

因此,当我们提出基本问题时,像这样的流行方法似乎并没有提供完全令人满意的答案,这并不奇怪:

" 我们怎么知道群集的实际数量呢?"

该问题非常重要,因为聚类过程通常是进一步处理各个聚类数据的前提,因此,计算资源的数量可能取决于该测量。

在业务分析问题的情况下,反响可能更糟。通常以市场细分为目标对这种分析进行聚类。因此,很容易想到,根据集群的数量,将为该问题分配适当的营销人员。因此,对集群数量的错误评估可能导致宝贵资源的次优分配。

肘法elbow

对于k均值聚类方法,回答这个问题的最常用方法是所谓的肘法elbow。它涉及在循环中多次运行算法,增加集群选择,然后将聚类分数绘制为群集数量的函数。

对于肘部方法绘制的分数或度量是多少?为什么称它为" 肘 "方法?

一个典型的情节如下,

通常,得分是关于k均值目标函数的输入数据的度量,如相对于类别之间距离的某种形式类内距离。

例如,在Scikit-learn的,一种score方法可用于此目的。

但再次看一下情节。有时会让人感到困惑。它是4,5或6,我们应该把它作为最佳簇数吗?

总是不那么明显。

剪影系数 - 更好的指标

剪影系数使用平均集群内距离(计算a)和平均最接近的集群距离(b)。样本的Silhouette系数是(b - a) / max(a, b)。澄清b一下,是不属于同一聚类的样本与样本最近聚类之间的距离。我们可以计算所有样本的平均Silhouette系数,并将其用作度量来判断簇的数量。

为了说明,我们使用Scikit-learn make_blob函数在4个特征维度和5个聚类中心生成随机数据点。因此,问题的根本事实是数据是围绕5个集群中心生成的。但是,k-means算法无法知道这一点。

可以如下绘制聚类(成对特征),

接下来,我们运行k-means算法,选择k = 2到k = 12,并计算每次运行的默认k均值分数和平均轮廓系数,并将它们并排绘制。

差异不可能更加严峻。平均轮廓系数增加到k = 5 时的点,然后对于更高的k值急剧减小,即它在k = 5 处呈现清晰的峰值,这是生成原始数据集的聚类的数量。

与肘法中的平缓弯曲相比,轮廓系数表现出峰值特征。这更容易可视化和推理。

如果我们在数据生成过程中增加高斯噪声,则群集看起来更加重叠。

在这种情况下,使用elbow方法的默认k-means分数会产生更加模糊的结果。在下面的肘部图中,很难选择合适的点来发生实际弯曲。是4,5,6还是7?

但是,剪影系数图仍然设法保持4或5个聚类中心的峰值特征。

事实上,如果你回顾一下重叠的聚类,你会发现大多数可见4个聚类 - 尽管数据是使用5个聚类中心生成的,但由于方差很大,结构上只有4个聚类出现。Silhouette系数可以轻松获取此行为,并显示4到5之间的最佳簇数。

使用高斯混合模型的BIC得分

用于确定集群,如真正的计数等优良指标(BIC),超出k均值延伸到更一般化版本- Gaussian Mixture Model(GMM)。

基本上,GMM将一团数据视为具有单独均值和方差的多个高斯数据集的叠加。然后,它应用来近似确定这些均值和方差。

高斯混合模型的解释

在机器学习领域,我们可以区分两个主要领域:监督学习和非监督学习。

BIC作为正规化的想法

您可以通过统计分析或先前与线性回归的交互来识别术语BIC。BIC和AIC(Akaike信息准则)用作变量选择过程的线性回归中的正则化技术。

BIC / AIC用于线性回归模型的正则化。

这个想法以类似的方式应用于BIC。理论上,极其复杂的数据集也可以建模为大量高斯数据集的叠加。对于此目的,有多少高斯没有限制。

但这类似于线性回归中增加的模型复杂性,其中大量特征可用于拟合任何任意复杂的数据,仅失去泛化能力,因为过于复杂的模型适合噪声而不是真实模式。

BIC方法惩罚大量高斯并试图保持模型足够简单以解释给定的数据模式。

BIC方法惩罚大量高斯,即过于复杂的模型。

因此,我们可以针对一系列聚类中心运行GMM算法,并且BIC得分将增加到一定程度,但之后将随着惩罚项的增长而开始减少。

总结

我们讨论了常用肘法的几种备选方案,用于在无监督学习环境中使用k-means算法获取正确数量的聚类。

我们展示了Silhouette系数和BIC得分(来自k-means的GMM扩展)是用于在视觉上辨别最佳簇数的比肘方法更好替代方案。

标签: #轮廓系数多少比较好