前言:
眼前你们对“数据挖掘的方法论”大致比较着重,我们都想要知道一些“数据挖掘的方法论”的相关文章。那么小编在网摘上网罗了一些对于“数据挖掘的方法论””的相关资讯,希望姐妹们能喜欢,同学们一起来了解一下吧!1、数据挖掘技术的产业标准-CRISP-DM & SEMMA
2、数据库中的知识发掘-Knowledge Discovery in Database (KDD)
2.1 KDD包括字段选择、数据清洗、字段扩充、数据编码、数据挖掘、结果展现。
(It includes attribute selection, data cleansing, attribute,enrichment, data coding, data mining, and reporting)
2.2 应用:
分析喜欢汽车杂志的人都有哪些特征;分析同时喜欢汽车杂志和房产杂志的人有哪些特征;
2.3 数据清洗:
比如文字录入错误,用pattern reconition algorithms算法解决;比如字段范围和一致性的约束(异常值或者NULL)
2.4 字段扩充:
“地址”转化为“区域”(省份、城市)“生日”转化为“年龄”,收入信息;(从其他部门获取数据)
示例:分析航班不同的舱位的乘客喜欢看什么类型的书籍,可根据用户行为分析:
比如发现,
头等舱的乘客爱看财经类的杂志;经济舱的乘客爱看旅游或八卦杂志;
示例:信用卡贷款人评估:
是否有房;是否有车。
横向与纵向进行字段选择:
字段选择——垂直面;信息量不够的数据删除(NULL)——水平面
2.5 数据编码
"年龄"、"区域"形成数字编码;"收入"货币前置号¥,清洗掉,可按K(千元)来统计;“购买日期”统计成“购买的月数”
神经网络、深度学习、回归算法只接受数据输入;
模型调参(建模经验)——获得好结果;
示例:分析同几款杂志的人的特征:
方法:Perform flattening operation
将客户特征和是否有汽车杂志、是否有房产杂志、是否有漫画杂志,平铺化,单独形成一个字段,用(0/1)来表示。
Data Preprocessing总结:
1、建立数据仓库的过程即是数据预处理的过程(Attribute Selection, Cleansing, Enrichment, Coding)
2、在Data Mining的整个运作过程,数据预处理是最重要的一个步骤,数据预处理得当,对后续Data Mining过程是否有效和质量的好坏有重要的影响(有高质量的数据,才有高质量的数据挖掘结果)
3、数据预处理在整个Knowledge Discovery Process中,其重要性和所花费的时间,均位居其他步骤的首位(May Take 60% ~ 80% of Effort)
EM Methodology
• IBM SPSS Modeler supports CRISP-DM (Cross Industry Standard Process for Data Mining) methodology
• SAS EM uses SEMMA (Sample, Explore, Modify, Model, Assess) methodology -> 直接与数据处理相关
SEMMA :
• Sample
• Input Data Source, Data Partition, Sampling
• Explore
• Distribution Explore, Multiplot, Variable Selection, …
• Modify
• Filter Outliers, Transform Attributes, Attribute Selection, …
• Model
• Tree, Neural Network, Regression, Clustering, Association, …
• Assess
• Assessment, Score, Report)
标签: #数据挖掘的方法论 #数据挖掘的方法论结合例子怎么写