前言:
而今各位老铁们对“回归分析法”大约比较关心,朋友们都需要了解一些“回归分析法”的相关知识。那么小编同时在网络上搜集了一些对于“回归分析法””的相关资讯,希望朋友们能喜欢,看官们一起来学习一下吧!回归和分类
在数据挖掘中,分类和回归是最主要的两类问题,其实本质是一样的,都是对输入做出预测,其区别在于输出的类型。
分类问题:分类问题的输出是离散变量,是定性输出,比如预测明天天气是阴、晴还是下雨。回归问题:回归问题的输出是连续变量,是定量输出,比如预测明天的温度是多少度。
本文介绍一些常用的回归分析方法,这些方法可以用来解决回归问题,也可以解决分类问题。回归预测出的结果,按照区间划分到类别中,自然也就实现了分类。
回归分析
在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
实际上,回归分析还有很多不同的方法和分类:
按照涉及的变量的多少,回归分析可以分为一元回归和多元回归分析;按照因变量的多少,回归分析可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,回归分析可分为线性回归分析和非线性回归分析。
下面列出一些常用的回归分析方法以及应用的场合。
Linear Regression线性回归
使用线性回归的最佳应用场合,是拟合线性关系,即在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
用一个方程式来表示线性关系,即Y=a+b*X+e,其中a表示截距,b表示直线的斜率,e是误差项。这个方程可以根据给定的预测变量来预测目标变量的值。如下图利用线性回归,来建立身高(Height)和体重(Weight)之间的线性关系。
要得到最佳拟合线,即找到最佳的a和b的取值,可以使用最小二乘法轻松地完成,可以使用R-square指标来评估模型性能。对于观测数据,它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。
使用线性回归的前提是:自变量与因变量之间必须有线性关系,否则就是缘木求鱼。另外需要注意的是:线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值。
Logistic Regression逻辑回归
逻辑回归虽然也叫回归,但其本身是解决二元分类问题的,即用来计算因变量为真(T)或者假(F)的概率。当因变量的类型属于二元(1 / 0、真/假、是/否)变量时,可以使用逻辑回归。
与线性回归不同,逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它使用了一个非线性的log转换。
逻辑回归通过观测样本的极大似然估计值来选择参数,需要大量的样本来训练,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。
Polynomial Regression多项式回归
对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。如下方程所示:y=a+b*x^2
在这种回归技术中,最佳拟合线不是直线,而是一个曲线。
Stepwise Regression逐步回归
在处理多个自变量时,我们可以使用逐步回归。在这种技术中,自变量的选择是在一个自动的过程中完成的。 通过观察如R-square,t-stats和AIC(Akaike information criterion)等指标,来识别重要的变量。
标准逐步回归法做两件事情,即每个步骤增加或删除预测所需的变量。
向前选择法:从模型中最显著的预测开始,然后为每一步添加变量。向后剔除法:从模型的所有变量同时开始预测,然后在每一步消除最小显着性的变量。
这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。
Ridge Regression岭回归
当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。在存在多重共线性时,尽管最小二乘法(OLS: ordinary least squares)测得的估计值不存在偏差,它们的方差也会很大,从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值,来降低标准误差。
Lasso Regression套索回归
类似于岭回归,Lasso (Least Absolute Shrinkage and Selection Operator)也会就回归系数向量给出惩罚值项。
Lasso 回归与Ridge回归有一点不同,它使用的惩罚函数是L1范数,而不是L2范数。
ElasticNet回归
ElasticNet是Lasso和Ridge回归技术的混合体。当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选多个相关特征中的一个,而ElasticNet则会选择两个。
总结模型选择的基础:数据探索是构建预测模型的必然组成部分,在选择合适的模型时,首先要识别变量的关系。比较模型的性能:可以使用具有统计意义的参数,比如R-square等。交叉验证是评估预测模型的最佳方法。将数据集分成两份:一份做训练和一份做验证。使用观测值和预测值之间的一个简单均方差来衡量预测精度。回归正则化方法(Lasso、Ridge和ElasticNet)在高维数据集,变量之间存在多重共线性的情况下运行良好。
标签: #回归分析法