前言:
眼前咱们对“怎么用拟合做预测数据”都比较重视,你们都需要了解一些“怎么用拟合做预测数据”的相关文章。那么小编也在网上搜集了一些关于“怎么用拟合做预测数据””的相关文章,希望咱们能喜欢,同学们一起来学习一下吧!做了一段时间分析后,你是否会感觉分析结果还停留在数据表面现象,如果你和我有同感,请耐心读完本篇文章,会受益匪浅。接下来一段时间,本人也会深入研究统计学方面的知识。因为学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。更深层次的挖掘出数据背后的价值!统计学是数据分析的基石。
本文通过使用 Python+Pandas+Statsmodels 建立简单一元线性回归模型、多元线性回归模型来预测世界幸福指数。
通过一个实际的案例,了解使用线性回归建模的过程,测试、分析。
一、项目背景
《世界幸福指数报告》是对全球幸福状况的一次具有里程碑意义的调查。
民意测验机构盖洛普从 2012 年起,每年都会在联合国计划下发布《世界幸福指数报告》,报告会综合两年内 150 多个国家的国民对其所处社会、城市和自然环境等因素进行评价后,再根据他们所感知的幸福程度对国家进行排名。
《世界幸福指数报告》的编撰主要依赖于对 150 多个国家的 1000 多人提出一个简单的主观性问题:“如果有一个从 0 分到 10 分的阶梯,顶层的 10 分代表你可能得到的最佳生活,底层的 0 分代表你可能得到的最差生活。你觉得你现在在哪一层?”
那么哪个国家在总体幸福指数上排名最高?哪些因素对幸福指数的影响最大?今天我们就用 Python+Pandas+Statsmodels 来聊一聊。
二、数据集说明rank:幸福指数排名region:国家happiness:幸福指数得分gdp_per_capita:GDP(人均国内生产总值)healthy_life_expectancy:健康预期寿命freedom_to_life_choise:自由权generosity:慷慨程度year:年份corruption_perceptions:清廉指数social_support:社会支持(客观上物质上的援助和直接服务;主观上指个体感到在社会中被尊重、被支持和被理解的情绪体验和满意程度。)
二、什么是线性回归?
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
三、变量选择
【因变量】 我们选择 happiness(幸福指数) 作为因变量,该变量度量了各个国家的幸福指数。
【自变量】我们选择了影响幸福的六个因素,比如 GDP、健康预期寿命、自由权、慷慨程度、清廉指数、社会支持。
四、 数据导入和数据整理
import pandas as pd import numpy as np # 可视化import matplotlib.pyplot as plt import seaborn as sns import plotly as py import plotly.graph_objs as go import plotly.express as px from plotly.offline import init_notebook_mode, iplot, plot init_notebook_mode(connected=True)plt.style.use('seaborn')# 读入数据df_2015 = pd.read_csv('./deal_data/2015.csv')df_2016 = pd.read_csv('./deal_data/2016.csv')df_2017 = pd.read_csv('./deal_data/2017.csv')df_2018 = pd.read_csv('./deal_data/2018.csv') df_2019 = pd.read_csv('./deal_data/2019.csv')# 新增列-年份df_2015["year"] = str(2015)df_2016["year"] = str(2016)df_2017["year"] = str(2017)df_2018["year"] = str(2018)df_2019["year"] = str(2019)# 合并数据df_all = df_2015.append([df_2016, df_2017, df_2018, df_2019], sort=False)df_all.drop('Unnamed: 0', axis=1, inplace=True)df_all.head()
print(df_2015.shape, df_2016.shape, df_2017.shape, df_2018.shape, df_2019.shape)
五、数据可视化1、2019 世界幸福地图
data = dict(type = 'choropleth', locations = df_2019['region'], locationmode = 'country names', colorscale = 'RdYlGn', z = df_2019['happiness'], text = df_2019['region'], colorbar = {'title':'Happiness'})layout = dict(title = 'Geographical Visualization of Happiness Score in 2019', geo = dict(showframe = True, projection = {'type': 'azimuthal equal area'}))choromap3 = go.Figure(data = [data], layout=layout)plot(choromap3, filename='./html/世界幸福地图.html')
结论:整体来看,北欧的国家幸福指数较高,如冰岛、丹麦、挪威、芬兰;东非和西非的国家幸福指数较低,如多哥、布隆迪、卢旺达和坦桑尼亚。
2、2019 世界幸福国家排行 Top10
# 合并数据rank_top10 = df_2019.head(10)[['rank', 'region', 'happiness']]last_top10 = df_2019.tail(10)[['rank', 'region', 'happiness']]rank_concat = pd.concat([rank_top10, last_top10])# 条形图fig = px.bar(rank_concat, x="region", y="happiness", color="region", title="World's happiest and least happy countries in 2019")plot(fig, filename='./html/2019世界幸福国家排行Top10和Last10.html')
3、幸福指数相关性
# 热力图plt.figure(figsize=(25, 20))sns.heatmap(df_all.corr(), cmap='rainbow', linewidths=0.1, annot=True)plt.title('Correlation between numeric variables', fontsize=18) plt.xticks(fontsize=13) plt.yticks(fontsize=13) plt.show()
结论:从影响因素相关性热力图可以看出,在影响幸福得分的因素中,GDP、社会支持、健康预期寿命呈现高度相关,自由权呈现中度相关,国家的廉政水平呈现低度相关,慷慨程度则呈现极低的相关性;
GDP 与健康预期寿命、社会支持之间存在高度相关。说明 GDP 高的国家,医疗水平和社会福利较为完善,人民的预期寿命也会越高;
健康预期寿命与社会支持之间存在中度相关性。
4、以下分别观察各个因素的影响程度①GDP 和幸福得分
# 散点图fig = px.scatter(df_all, x='gdp_per_capita', y='happiness', facet_row='year', color='year', trendline='ols' ) fig.update_layout(height=800, title_text='GDP per capita and Happiness Score')plot(fig, filename='./html/GDP和幸福得分.html')
结论:人均 GDP 与幸福得分呈高度线性正相关关系,GDP 越高的国家,幸福水平相对越高
②健康预期寿命和幸福得分
# 散点图fig = px.scatter(df_all, x='healthy_life_expectancy', y='happiness', facet_row='year', color='year', trendline='ols' ) fig.update_layout(height=800, title_text='Healthy Life Expecancy and Happiness Score')plot(fig, filename='./html/健康预期寿命和幸福得分.html')
结论:健康预期寿命与幸福得分呈高度线性正相关关系,健康预期寿命越高的国家,幸福水平相对越高。
③动态图展示(GDP&happiness)
fig = px.scatter(df_all, x='healthy_life_expectancy', y='happiness', animation_frame='year', animation_group='region', size='rank', color='region', hover_name='region', trendline='ols' ) fig.update_layout(title_text='Happiness Rank vs healthy_life_expectancy') plot(fig, filename='./html/健康预期寿命和幸福水平动态图展示.html')
④动态图展示(healthy_life_expectancy&happiness)
fig = px.scatter(df_all, x='healthy_life_expectancy', y='happiness', animation_frame='year', animation_group='region', size='rank', color='region', hover_name='region', trendline='ols' ) fig.update_layout(title_text='Happiness Rank vs healthy_life_expectancy') plot(fig, filename='./html/健康预期寿命和幸福水平动态图展示.html')
五、数据建模
我们使用线性回归进行建立一个基准模型,首先筛选一下建模变量,并删除空值记录。
from statsmodels.formula.api import olssel_cols = ['happiness', 'gdp_per_capita', 'healthy_life_expectancy', 'freedom_to_life_choise', 'corruption_perceptions', 'generosity']# 重置索引df_model.index = range(df_model.shape[0])df_model = df_all[sel_cols] # 删除空值df_model = df_model.dropna() df_model.head()
1、ols 最小二乘法
本文使用最小二乘法来建模,它是很基础、很强大的方法,应用非常广泛。
最小二乘法通过使得因变量观测值与因变量估计值之间的残差平方和达到最小的方法,得到估计的回归方程。最小二乘准则就是选择能与样本数据有最佳拟合方程的准则。
最小二乘法建立在假定之上,如果假设成立,建立的模型可以用来较准确地预测数据。反之,假设不成立,模型论断将失去其有效性。
最小二乘法假定:
1)线性关系:假定因变量与自变量之间存在线性关系。如果不存在线性关系,线性回归不是解释数据的正确模型。
2)无多重共线性:因变量之间不存在相关性。如果某些因变量之间存在密切联系,可以尝试删去其中一个或多个相关的因变量。因为多余的因变量提供了冗余信息,剔除多余变量并不会大大降低修正判定系数。
3)零条件均值假定:观测值和线性拟合估计值之间的平均残差为 0。有时候观测值和估计值相比,偏大;有时候偏小,但之间的残差不会无控制地偏向于一群值。
4)同方差:对于自变量的不同取值,因变量的误差项都是独立的,方差是相同的。
5)无自相关性 / 序列相关:自相关是指一个变量同自身其他观测值有相互关系。比如,如果今天的股票价格影响着明天的股票价格,那么股票价格就是序列相关的。
2、简单线性回归回归模型
简单线性回归使用一个自变量来预测一个因变量,二者之间的关系可以用一条直线近似表示。
简单线性回归模型:
建模
我们将使用 statsmodels 中 ols 功能,构建 happiness 同 gdp_per_capita 之间的模型。
Statsmodels 是一个很强大的 Python 库,用于拟合多种统计模型,执行统计测试以及数据探索和可视化。
对于线性回归 linear regression,我们可以使用 Statsmodels 库中最小二乘法 OLS(Ordinary-Least-Square)的功能来实现,可以得到丰富的数据信息。
# 建立简单线性回归模型lm_m = ols(formula='happiness ~ gdp_per_capita', data=df_model).fit()lm_m.summary()
1) 修正判定系统 Adj.R-squared:63.3%。幸福指数变异性的 63.3% 能被其与 gdp_per_capita 之间的线性关系解释。
2)回归系数:2.19。代表 GDP 每增加一个单位,幸福指数将增加 2.19 个单位。和我们常识理解的想法一致,GDP 增加,幸福指数会增加。
3)回归系数的标准误差 stand error:0.061,即β的估计的标准差。通过每年的 GDP 数据,可以计算得到回归系统的标准误差。回归系数标准误差,是量度结果精密度的指标。这里计算得出的标准误差为 0.061,数值很小,说明精确度还是不错的。
( 补充:标准差是表示个体间变异大小的指标, 反映了整个样本对样本平均数的离散程度, 是数据精密度的衡量指标; 而标准误反映样本平均数对总体平均数的变异程度, 从而反映抽样误差的大小 , 是量度结果精密度的指标。)
4)p - 值为 0%。根据简单线性回归显著性的 t 检验,原假设 happiness 同 gdp_per_capita 之间不存在线性关系,β为 0。而现在 p 值为 0%,小于显著性水平 0.05。所以拒绝原假设,β显著不等于 0。我们足以断定,happiness 同 gdp_per_capita 之间存在一个显著的关系。
5)β的 63% 的置信区间:2.076 ~ 2.315。我们有 63% 的信心,回归系数β将落在置信区间 [2.076,2.315]中。换个角度来讲,简单线性回归显著性的 t 检验,假设β为 0,而β=0 并没有包含在上述置信区间内,所以我们可以拒绝原假设,断定 happiness 同 gdp_per_capita 之间存在一个显著的关系。
3、多元线性回归回归模型
我们知道仅仅考虑 GDP 是不能完全解释幸福指数的。为了更加准确地分析影响幸福指数因素,应该引入一些不同的自变量来分析,看看哪些自变量的组合更优地满足 OLS 最小二乘假定。这里利用六个自变量来测试一下。
from statsmodels.formula.api import ols# 建立多元线性回归模型lm_m = ols(formula='happiness ~ gdp_per_capita + healthy_life_expectancy + freedom_to_life_choise + corruption_perceptions + generosity', data=df_model).fit()lm_m.summary()
1) 修正判定系统 Adj.R-squared 从之前的 63.3%% 上升到 74.3%。房屋价格指数变异性的 74.3% 能被其与多个自变量之间的线性关系解释。
2)回归系数: 控制其他变量不变的情况下,GDP 指数每增加一个单位,幸福指数增加 1.32 个单位,健康预期寿命指数每增加一个单位,幸福指数增加 1.21 个单位。
3)变量重要性排序为:gdp_per_capita、freedom_to_life_choise、healthy_life_expectancy、corruption_perceptions、generosity
5)新引入的自变量的 p 值都小于显著性水平 0.05,说明这些自变量同幸福指数是有显著关系的。考虑到判定系数的增加,更加说明多元线性回归模型在这里是优于简单一元线性回归的。
六、比较预测值和真实值的分布
y_pred = lm_m.predict(df_model[:])df_pred = pd.concat([df_model['happiness'], y_pred], axis=1) df_pred.columns = ['y_true', 'y_pred']# 散点图fig = px.scatter(df_pred, x='y_true', y='y_pred', trendline='ols')fig.update_layout(title='Resid of OLS Regression')plot(fig, filename='./html/预测值和真实值分布图.html')
七、模型残差分布图
残差: y 预测值与 y 之间的差值
fig = px.histogram(x=lm_m.resid) fig.update_layout(title='Resid of OLS Regression')plot(fig, filename='./html/多元线性回归残差分布图.html')
参考文献:
CDA 数据分析师 :
标签: #怎么用拟合做预测数据