数据挖掘概论（二）——方法论

灰狼雨 09-11 48

前言：

眼前你们对“数据挖掘的方法论”大致比较着重，我们都想要知道一些“数据挖掘的方法论”的相关文章。那么小编在网摘上网罗了一些对于“数据挖掘的方法论””的相关资讯，希望姐妹们能喜欢，同学们一起来了解一下吧！

1、数据挖掘技术的产业标准-CRISP-DM & SEMMA

2、数据库中的知识发掘-Knowledge Discovery in Database (KDD)

2.1 KDD包括字段选择、数据清洗、字段扩充、数据编码、数据挖掘、结果展现。

（It includes attribute selection, data cleansing, attribute，enrichment, data coding, data mining, and reporting）

2.2 应用：

分析喜欢汽车杂志的人都有哪些特征；分析同时喜欢汽车杂志和房产杂志的人有哪些特征；

2.3 数据清洗：

比如文字录入错误，用pattern reconition algorithms算法解决；比如字段范围和一致性的约束（异常值或者NULL）

2.4 字段扩充：

“地址”转化为“区域”（省份、城市）“生日”转化为“年龄”，收入信息；（从其他部门获取数据）

示例：分析航班不同的舱位的乘客喜欢看什么类型的书籍，可根据用户行为分析：

比如发现，

头等舱的乘客爱看财经类的杂志；经济舱的乘客爱看旅游或八卦杂志；

示例：信用卡贷款人评估：

是否有房；是否有车。

横向与纵向进行字段选择：

字段选择——垂直面；信息量不够的数据删除（NULL）——水平面

2.5 数据编码

"年龄"、"区域"形成数字编码；"收入"货币前置号￥，清洗掉，可按K(千元)来统计；“购买日期”统计成“购买的月数”

神经网络、深度学习、回归算法只接受数据输入；

模型调参（建模经验）——获得好结果；

示例：分析同几款杂志的人的特征：

方法：Perform flattening operation

将客户特征和是否有汽车杂志、是否有房产杂志、是否有漫画杂志，平铺化，单独形成一个字段，用（0/1）来表示。

Data Preprocessing总结：

1、建立数据仓库的过程即是数据预处理的过程（Attribute Selection, Cleansing, Enrichment, Coding）

2、在Data Mining的整个运作过程，数据预处理是最重要的一个步骤，数据预处理得当，对后续Data Mining过程是否有效和质量的好坏有重要的影响（有高质量的数据，才有高质量的数据挖掘结果）

3、数据预处理在整个Knowledge Discovery Process中，其重要性和所花费的时间，均位居其他步骤的首位（May Take 60% ~ 80% of Effort）

EM Methodology

• IBM SPSS Modeler supports CRISP-DM (Cross Industry Standard Process for Data Mining) methodology

• SAS EM uses SEMMA (Sample, Explore, Modify, Model, Assess) methodology -> 直接与数据处理相关

SEMMA ：

• Sample

• Input Data Source, Data Partition, Sampling

• Explore

• Distribution Explore, Multiplot, Variable Selection, …

• Modify

• Filter Outliers, Transform Attributes, Attribute Selection, …

• Model

• Tree, Neural Network, Regression, Clustering, Association, …

• Assess

• Assessment, Score, Report）