机器学习算法—KMEANS算法原理及阿里云PAI平台算法模块参数说明

阿里云技术 07-22 108

前言：

而今小伙伴们对“kmeans算法代码实现”大概比较注意，同学们都需要了解一些“kmeans算法代码实现”的相关内容。那么小编也在网上汇集了一些有关“kmeans算法代码实现””的相关资讯，希望兄弟们能喜欢，同学们一起来了解一下吧！

概述：

KMEANS算法又被成为K均值算法，是一种常用的聚类算法，由于不需要根据给定的训练集训练模型因此是一种无监督学习算法。其本质是根据选定的参数K将数据分类成K类，在聚类过程中从单一样本开始通过不断计算聚类数据的均值来作为整个类的中心进而再将距离此类别中心最近的数据纳入同一类。

算法原理：

1、以下图样本散点图展示数据集的整体分布情况

2、K值是KMEANS最重要的选择参数，直接决定着数据聚类的类别数量，在选择K值后，会在数据中随机选择K个数据样本最为初始中心点，如K=3，则结果如下图所示

3、计算和中心点距离最近的点，将其归入同类

4、每个类别当有了两个以上的数据时，类的中心就会发生变化，因此类中一旦有新的数据被划入时就需要重新计算整个类的中心点，这一步的计算也是整个算法的核心，所以称为K均值算法

5、通过几步计算之后的结果，能够更直观的展示出类的聚合情况和中心点的位置情况

6、判断聚类过程结束的标准有两个，一是中心点的位置不再发生变化，即结果收敛；二是执行了最够多次的迭代次数（通俗可以理解为计算了几次中心点位置）

注意事项：

1、K值是整个算法中最重要的参数，但是也是最不好确定的参数，如果需要比较好的确定K值，需要采用其他验证算法，如计算样本离最近聚类中心的总和，总和越小，则聚类的效果越好；轮廓系数，轮廓系数的范围为-1至1之间，数字越大则聚类效果越好；兰德指数，范围为-1至1之间，数字越大则聚类效果越好；同质化得分，如果所有的聚类都只包含属于单个类的成员的数据点则聚类结果将满足同质性，其取值范围为0至1之间，值越大意味着聚类结果与真实情况越吻合。

2、以上验证方法虽然对于确定K值有效，但是验证过程需要额外的计算力资源，并且占用的计算力接近于聚类过程所需要的计算力资源，数据集如果较大，则计算力的消耗会产生叠加效应。

3、较为简易的方法为，从数据集中随机抽取部分小规模数据，以散点图等可视化手段来观察数据的可能聚类数量，以此来判断K的取值。这种方法可以认为是经验法的一种表现形式，相比经验法的完全定性分析，随机抽取数据观察能够在经验的基础上增加定量的分析部分，虽然随机抽取的数据也可能有误差，但是抽取的数据量越多，则准确度越高。

4、因为初始的中心点选择是根据K的值随机选择K个点，所以选择的随机性加上迭代过程造成算法的结果只是局部最优解，毕竟反复的计算最短距离的点和类的中心都是在局部已经聚合的类的基础上进行的，而不是从全局的范围进行。

算法使用场景：

1、隐含类别的数据较为平衡的情况，如隐含类别的数据量差别较大，则聚类的效果就较差。

2、数据最好是凸数据，即隐含类别间的差异越大，则聚类效果越好，因为中心点不再变化所需要的迭代次数较少，比较容易收敛。

3、一般作为数据预处理，或者用于辅助分类贴标签使用，因为在已经经过分类的数据上再进行聚类，准确度会非常高。

阿里云PAI平台算法模块及参数设置说明：

inputTableName ：输入表表名

selectedColNames：输入表中用于训练的列名，默认选择所有列

inputTablePartitions：输入表中指定哪些分区参与训练，默认选择所有分区

centerCount：聚类数K，是算法中最重要的参数，决定数据的聚类数量

loop：最大迭代次数，算法中非常重要的参数，当最大迭代次数到达但是仍然无法收敛时，则停止计算

accuracy：中心点计算终止条件，如果两次迭代之间变化低于该值，算法终止，默认值0.0，值过大则会出现欠拟合情况，值较小则中心点容易在小范围间变化造成计算结果无法收敛