前言:
而今朋友们对“数据挖掘的算法类型”大概比较关注,同学们都需要了解一些“数据挖掘的算法类型”的相关知识。那么小编也在网络上搜集了一些有关“数据挖掘的算法类型””的相关内容,希望小伙伴们能喜欢,朋友们快快来了解一下吧!本章内容
1、统计学习是什么
2、为什么要估计函数f
3、参数和非参数方法
4、预测精确性和模型解释性的权衡
5、有监督和无监督学习
6、分类和回归
7、如何衡量模型的精确程度(分类模型和回归模型)
8、偏差和方差的权衡
9、贝叶斯分类器和KNN算法
一、统计学习是什么
统计学习是一套以理解数据为目的的庞大工具集。统计学习的工具可以分为两大类:有指导的(supervised)学习和无指导的(unsupervised)学习。实际上统计学习是关于估计函数f的一系列方法。
二、为什么要估计函数f
(一)预测
许多情况下,输入集X是现成的,但输出Y是不易获得的。由于误差项的均值是0,则可以通过下式子预测Y:
在这个式子中f是黑箱(black box),这表示一般情况下,如果该黑箱能提供准确的预测Y,则并不十分追求f的确切形式。
(二)推断
一些情况下估计函数f目标是为了想明白X和Y的关系,对X1,X2,...,Xp变化对Y产生怎样的影响比较感兴趣。这种情况下,f不能当作黑箱看待,因为我们要知道它的具体形式。可能涉及如下问题:
哪些预测变量与响应变量相关?响应变量与每个预测因子之间的关系是什么?Y与每个预测变量的关系是否能用一个线性方程概括,还是它们的关系需要更复杂的形式。三、参数和非参数方法(如何估计f)
(一)参数方法:基于模型估计的两阶段方法
步骤:(1)假设模型f具有一定的形状,选定模型(2)用训练数据集去拟合或训练模型(常用最小二乘法)优点:把估计f的问题简化到估计一组参数。缺陷:选定的模型并非与真正的f在形式上是一致的。解决思路:选择光滑(felexible)模型拟合很多不同形式的函数f。过拟合:模型拟合了错误或噪声(因为光滑度更强的模型需要更多的参数估计)。所建的模型产生一个较小的训练均方误差,但却有一个较大的测试均方误差。无论是否过拟合,我们总是期望训练均方误差比测试均方误差小,过拟合作为一种特殊应用,其存在的意义在于暗示降低模型的光滑度,可以减小测试均方误差。
(二)非参数方法:追求接近数据点的估计
优点:不限定函数f的具体形式。弱点:无法将估计f的问题简化到对少数参数进行估计的问题,因此往往需要大量的观测点。四、预测精确性和模型解释性的权衡
当目标是推断的时候,结构限定的模型,模型解释性强。仅对预测感兴趣时,精确的预测也常常是在欠光滑渡的模型上取得。欠光滑度的模型虽违反直觉,但是恰巧是抗过拟合缺陷的能力所在。
五、有监督和无监督学习
有监督学习:面向预测的统计模型的建立;对一个或多个给定的输入估计某个输出。
>包括:线性回归、逻辑回归(Logistic regression)、广义可加模型(GAM)、提升方法和支持向量机(SVM)等。
无监督学习:有输入变量但不指定输出变量。需要理解变量之间或观测之间的关系时。
>例如:聚类分析
半监督学习:n个预测,其中m个同时观测到预测变量和响应变量,n-m个只能观测到预测变量。(比如对相应相应变量采集困难时)
六、分类和回归
回归:响应变量为定量。通常选用线性回归模型。
分类:响应变量为定性。通常采用逻辑回归模型。
七、如何衡量模型的精确程度(分类模型和回归模型)
(一)回归模型
均方误差MSE(mean squared error):
模型选择应力图使测试均方误差尽可能的小,不一定是训练均方误差最小。
>如何选择使测试均方误差最小的模型?
使用一组没有被用于建立统计学习模型的观测数据做测试数据
(二)分类模型
训练错误率(error rate):误分类的比例。误分类时I=1。
测试错误Ave(I(y0≠y0^))
八、偏差和方差的权衡
期望测试均方误差(平均测试均方误差)能分解成三个基本量的和:
①方差:代表用一个不同的训练数据集估计 f 时,估计函数的该变量。一般来说,光滑度越高的统计模型有更高的方差。
②偏差:为了选择一个简单的模型逼近真实函数而背带入的误差。一般来说,光滑度越高的统计模型产生更小的偏差。
③不可约误差
偏差、方差和测试均方误差之间的关系是偏差=方差的权衡。如果一个统计学习模型被称为测试性能好,那么要求该模型有较小的方差和较小的偏差。
九、贝叶斯分类器和KNN算法
(一)贝叶斯分类器
在一个二分类问题中,只有两个可能的响应值,一个称为类别1,另一个称为类别2,若X=x0时Y=1的条件条件概率大于0.5,贝叶斯分类器将该观测的类别预测为1,否则预测为类别2。等于0.5的点称为贝叶斯决策边界。
(二)KNN算法(K-Neast Neighbors:K最近邻分类器)
选定一个x0,从识别训练集K个最靠近x0的点集开始,用N0表示K个点的集合,然后对每个类别j分别用N0中的一个点估计一个分值作为条件概率的估计,这个值等于j。最后运用贝叶斯规则将x0分到概率最大的类中
例如,x0周围选K个小球,红色记为a,绿色记为b,若周围是红球的概率大于0.5就归到红。
K的选择对获得KNN分类器有根本性的影响,K小的时候,偏差较低但方差大;K增加时,模型光滑性减弱,方差较低但偏差却高。K=10
标签: #数据挖掘的算法类型