龙空技术网

数据挖掘与统计计算笔记:第一章:统计学习的基本概念

板客流光 138

前言:

而今朋友们对“数据挖掘的算法类型”大概比较关注,同学们都需要了解一些“数据挖掘的算法类型”的相关知识。那么小编也在网络上搜集了一些有关“数据挖掘的算法类型””的相关内容,希望小伙伴们能喜欢,朋友们快快来了解一下吧!

本章内容

1、统计学习是什么

2、为什么要估计函数f

3、参数和非参数方法

4、预测精确性和模型解释性的权衡

5、有监督和无监督学习

6、分类和回归

7、如何衡量模型的精确程度(分类模型和回归模型)

8、偏差和方差的权衡

9、贝叶斯分类器和KNN算法

一、统计学习是什么

统计学习是一套以理解数据为目的的庞大工具集。统计学习的工具可以分为两大类:有指导的(supervised)学习和无指导的(unsupervised)学习。实际上统计学习是关于估计函数f的一系列方法。

二、为什么要估计函数f

(一)预测

许多情况下,输入集X是现成的,但输出Y是不易获得的。由于误差项的均值是0,则可以通过下式子预测Y:

在这个式子中f是黑箱(black box),这表示一般情况下,如果该黑箱能提供准确的预测Y,则并不十分追求f的确切形式。

(二)推断

一些情况下估计函数f目标是为了想明白X和Y的关系,对X1,X2,...,Xp变化对Y产生怎样的影响比较感兴趣。这种情况下,f不能当作黑箱看待,因为我们要知道它的具体形式。可能涉及如下问题:

哪些预测变量与响应变量相关?响应变量与每个预测因子之间的关系是什么?Y与每个预测变量的关系是否能用一个线性方程概括,还是它们的关系需要更复杂的形式。三、参数和非参数方法(如何估计f)

(一)参数方法:基于模型估计的两阶段方法

步骤:(1)假设模型f具有一定的形状,选定模型(2)用训练数据集去拟合或训练模型(常用最小二乘法)优点:把估计f的问题简化到估计一组参数。缺陷:选定的模型并非与真正的f在形式上是一致的。解决思路:选择光滑(felexible)模型拟合很多不同形式的函数f。过拟合模型拟合了错误或噪声(因为光滑度更强的模型需要更多的参数估计)。所建的模型产生一个较小的训练均方误差,但却有一个较大的测试均方误差。无论是否过拟合,我们总是期望训练均方误差比测试均方误差小,过拟合作为一种特殊应用,其存在的意义在于暗示降低模型的光滑度,可以减小测试均方误差。

(二)非参数方法:追求接近数据点的估计

优点:不限定函数f的具体形式。弱点:无法将估计f的问题简化到对少数参数进行估计的问题,因此往往需要大量的观测点。四、预测精确性和模型解释性的权衡

当目标是推断的时候,结构限定的模型,模型解释性强。仅对预测感兴趣时,精确的预测也常常是在欠光滑渡的模型上取得。欠光滑度的模型虽违反直觉,但是恰巧是抗过拟合缺陷的能力所在。

五、有监督和无监督学习

有监督学习:面向预测的统计模型的建立;对一个或多个给定的输入估计某个输出

>包括:线性回归、逻辑回归(Logistic regression)、广义可加模型(GAM)、提升方法和支持向量机(SVM)等。

无监督学习:有输入变量但不指定输出变量。需要理解变量之间或观测之间的关系时。

>例如:聚类分析

半监督学习:n个预测,其中m个同时观测到预测变量和响应变量,n-m个只能观测到预测变量。(比如对相应相应变量采集困难时)

六、分类和回归

回归:响应变量为定量。通常选用线性回归模型。

分类:响应变量为定性。通常采用逻辑回归模型。

七、如何衡量模型的精确程度(分类模型和回归模型)

(一)回归模型

均方误差MSE(mean squared error):

训练均方误差(training MSE)

测试点(x0,y0)的均方预测误差

模型选择应力图使测试均方误差尽可能的,不一定是训练均方误差最小。

>如何选择使测试均方误差最小的模型?

使用一组没有被用于建立统计学习模型的观测数据做测试数据

(二)分类模型

训练错误率(error rate):误分类的比例。误分类时I=1。

训练错误(training error)

测试错误Ave(I(y0≠y0^))

八、偏差和方差的权衡

期望测试均方误差(平均测试均方误差)能分解成三个基本量的和:

期望测试均方误差

①方差:代表用一个不同的训练数据集估计 f 时,估计函数的该变量。一般来说,光滑度越高的统计模型有更高的方差。

②偏差:为了选择一个简单的模型逼近真实函数而背带入的误差。一般来说,光滑度越高的统计模型产生更小的偏差。

③不可约误差

偏差、方差和测试均方误差之间的关系是偏差=方差的权衡。如果一个统计学习模型被称为测试性能好,那么要求该模型有较小的方差和较小的偏差。

九、贝叶斯分类器和KNN算法

(一)贝叶斯分类器

在一个二分类问题中,只有两个可能的响应值,一个称为类别1,另一个称为类别2,若X=x0时Y=1的条件条件概率大于0.5,贝叶斯分类器将该观测的类别预测为1,否则预测为类别2。等于0.5的点称为贝叶斯决策边界。

(二)KNN算法(K-Neast Neighbors:K最近邻分类器)

选定一个x0,从识别训练集K个最靠近x0的点集开始,用N0表示K个点的集合,然后对每个类别j分别用N0中的一个点估计一个分值作为条件概率的估计,这个值等于j。最后运用贝叶斯规则将x0分到概率最大的类中

例如,x0周围选K个小球,红色记为a,绿色记为b,若周围是红球的概率大于0.5就归到红。

K的选择对获得KNN分类器有根本性的影响,K小的时候,偏差较低但方差大;K增加时,模型光滑性减弱,方差较低但偏差却高。K=10

紫色虚线为贝叶斯决策边界;黑色KNN决策边界

标签: #数据挖掘的算法类型