龙空技术网

数据挖掘概论(二)——方法论

灰狼雨 31

前言:

眼前你们对“数据挖掘的方法论”大致比较着重,我们都想要知道一些“数据挖掘的方法论”的相关文章。那么小编在网摘上网罗了一些对于“数据挖掘的方法论””的相关资讯,希望姐妹们能喜欢,同学们一起来了解一下吧!

1、数据挖掘技术的产业标准-CRISP-DM & SEMMA

2、数据库中的知识发掘-Knowledge Discovery in Database (KDD)

2.1 KDD包括字段选择、数据清洗、字段扩充、数据编码、数据挖掘、结果展现。

(It includes attribute selection, data cleansing, attribute,enrichment, data coding, data mining, and reporting)

2.2 应用:

分析喜欢汽车杂志的人都有哪些特征;分析同时喜欢汽车杂志和房产杂志的人有哪些特征;

2.3 数据清洗:

比如文字录入错误,用pattern reconition algorithms算法解决;比如字段范围和一致性的约束(异常值或者NULL)

2.4 字段扩充:

“地址”转化为“区域”(省份、城市)“生日”转化为“年龄”,收入信息;(从其他部门获取数据)

示例:分析航班不同的舱位的乘客喜欢看什么类型的书籍,可根据用户行为分析:

比如发现,

头等舱的乘客爱看财经类的杂志;经济舱的乘客爱看旅游或八卦杂志;

示例:信用卡贷款人评估:

是否有房;是否有车。

横向与纵向进行字段选择:

字段选择——垂直面;信息量不够的数据删除(NULL)——水平面

2.5 数据编码

"年龄"、"区域"形成数字编码;"收入"货币前置号¥,清洗掉,可按K(千元)来统计;“购买日期”统计成“购买的月数”

神经网络、深度学习、回归算法只接受数据输入;

模型调参(建模经验)——获得好结果;

示例:分析同几款杂志的人的特征:

方法:Perform flattening operation

将客户特征和是否有汽车杂志、是否有房产杂志、是否有漫画杂志,平铺化,单独形成一个字段,用(0/1)来表示。

Data Preprocessing总结:

1、建立数据仓库的过程即是数据预处理的过程(Attribute Selection, Cleansing, Enrichment, Coding)

2、在Data Mining的整个运作过程,数据预处理是最重要的一个步骤,数据预处理得当,对后续Data Mining过程是否有效和质量的好坏有重要的影响(有高质量的数据,才有高质量的数据挖掘结果)

3、数据预处理在整个Knowledge Discovery Process中,其重要性和所花费的时间,均位居其他步骤的首位(May Take 60% ~ 80% of Effort)

EM Methodology

• IBM SPSS Modeler supports CRISP-DM (Cross Industry Standard Process for Data Mining) methodology

• SAS EM uses SEMMA (Sample, Explore, Modify, Model, Assess) methodology -> 直接与数据处理相关

SEMMA :

• Sample

• Input Data Source, Data Partition, Sampling

• Explore

• Distribution Explore, Multiplot, Variable Selection, …

• Modify

• Filter Outliers, Transform Attributes, Attribute Selection, …

• Model

• Tree, Neural Network, Regression, Clustering, Association, …

• Assess

• Assessment, Score, Report)

标签: #数据挖掘的方法论 #数据挖掘的方法论结合例子怎么写