悟空CRM:如何有效地进行数据挖掘，这些方法你都知道吗？

悟空CRM 06-23 146

前言：

此时朋友们对“多维关联规则挖掘算法”可能比较讲究，兄弟们都需要分析一些“多维关联规则挖掘算法”的相关知识。那么小编在网上网罗了一些关于“多维关联规则挖掘算法””的相关内容，希望各位老铁们能喜欢，咱们一起来学习一下吧！

1．概念或类描述

概念描述以简洁汇总的形式描述给定的任务相关数据集，提供数据价值的一般特性，主要应用于描述式数据挖掘。概念或类描述由特征化和区分组成，大体有两种方法：基于数据立方体OLAP的方法和面向属性归纳的方法。包括以下技术：数据聚焦、通过属性删除或属性概化的概化数据、计数和聚集值累计、属性概化控制和概化数据可视化。与机器学习算法相比，面向数据库的概念描述保证了大型数据仓库中数据的有效性和可伸缩性。对基本方法加以修正，概念描述挖掘以增量方式、并行方式或分布方式进行。

2．关联分析

关联分析能够发现关联规则，这些规则展示属性频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮分析、商务管理和决策分析，是商业分析中应用最为广泛的一种数据挖掘方法和模式。有效的算法包括Apriori算法和频繁模式增长（FP增长）算法，注重多层关联规则、多维关联规则和基于约束的关联规则的挖掘。

3．分类和预测分析

分类和预测是数据分析的两种重要形式，可以用于提取描述重要数据类的模型或预测未来的数据趋势。主要方法如下

①　决策树/判定树（Decision Tree),算法有ID3和C4.5、剪枝叶算法，以及SIIQ、SPRINT、RainForest和PUBLIC等可伸缩算法。

②　贝叶斯分类（Naive Bayesian Classification)和贝叶斯置信网络（Bayesian Belief Network),这两种方法都基于贝叶斯后验概率定理。

③　后向传播，是一种用于分类的神经网络算法，使用梯度下降方法。

④　关联挖掘技术在大型数据合库中搜索频繁出现的模式，可以用于分类。

⑤　K-最近邻分类和基于案例的推理是基于要求的分类方法。

⑥　在遗传算法中，规则群体通过交叉和变异操作进化，直到群体中所有的规则都满足指定的阀值。

⑦　粗糙集理论可以用来近似地定义类，这些类根据可用的属性是不可区分的。

⑧　模糊集方法用隶属函数替换连续值属性的陡峭罔值。

⑨　多策略学习方法。

⑩　线性、非线性和广义线性回归模型都可以用于预测。

4．聚类分析

聚类分标属于无指导学习。对象根据最大化类内的相似性和最小化类内的相似性原则进行聚类或分组。聚类分析有广泛的应用，包括市场或客户细分、模式识别、生物学研究、空间数据分析、Web文档分类及其他方面。它可以用作独立的数据挖掘工具来了解数据分布，也可以作为其他数据挖掘算法的预处理步骤。许多聚类算法已经被开发出来。主要包括以下几种。

①　划分方法，算法有K-均值、K-中心点，CLARANS和它们改进算法。

②　层次方法，根据层次分解的形成过程可分为凝聚法和分裂法。层次方法可集成其他聚类技术，如选代重定位、DENCLUE来改进。

③　基于密度的方法，DBSCAN是一种基于高密度连接区域的密度聚类方法，OPTICS是一种通过对象排序识别聚类结构的方法，DENCLUE是一种基于密度分布函数的聚类方法。

④　基于网格的方法，STING是基于网格方法的一个有代表性的算法，它基于存储在网格单元中的统计信息聚类。CLIQUE和Wave Cluster是两个既基于网格又基于密度的聚类算法。

⑤　基于模型的方法，包括统计学方法（如COBWEB、CLASSIT和Auto Class)和神经网络方法（如有竞争学习和自组织特征映射）。

⑥　模糊聚类方法。

5．孤立点分析

孤立点分析对于欺诈探测、定制市场医疗分析及其他任务是非常有用的。孤立点挖掘方法包括统计学方法、距离法和偏差法。

6．演变分析

演变分析描述行为随时间变化的对象的规律或趋势并对其建模，包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。演变分析可用于趋势分析、相似性搜素，以及与时间有关的序列模式挖掘和周期模式挖掘。

7．复杂类型的数据挖掘

复杂类型的数据挖掘是当前数据挖掘技术的一个重要的研究领域，它极大提升了数据分析能力的深度和广度，主要方法包括对象数据挖掘、空间数据挖掘、多媒体数据挖掘、时序和序列数据挖掘、文本挖掘和Web挖掘等。