龙空技术网

R数据分析:如何做逻辑斯蒂回归

Codewar 951

前言:

当前姐妹们对“lmse算法推导”大致比较重视,我们都想要剖析一些“lmse算法推导”的相关文章。那么小编同时在网络上网罗了一些关于“lmse算法推导””的相关知识,希望朋友们能喜欢,你们快快来了解一下吧!

今天还是给大家写一个比较基础的-逻辑斯蒂回归。

Logistic regression, also called a logit model, is used to model dichotomous outcome variables. In the logit model the log odds of the outcome is modeled as a linear combination of the predictor variables.

啥是逻辑斯蒂呢?这个就是广义线性回归的一种,适用于因变量为分类变量的时候,今天呢,只给大家写因变量是二分类的情况。

数据介绍

今天用到的数据集为binary.csv,请关注后私信获取。

数据就4个变量,admit、gre、gpa、和rank,今天我们就用这4个变量构建逻辑斯蒂回归模型。

myData <- read.csv("binary.csv")head(myData)summary(myData)str(myData)# 将rank转化为因子类型myData$rank <- factor(myData$rank)summary(myData)# 稍微修改下源数据使其更适合逻辑斯蒂回归myData[myData$admit == 1, 3] <- myData[myData$admit == 1, 3] + 1
任何分析的第一步都是先画图

所以我们就先来画我们的变量之间散点图:

#散点图library(ggplot2)ggplot(myData, aes(gpa, admit)) +  geom_point()#加上线性拟合ggplot(myData, aes(gpa, admit)) +  geom_point() +  geom_smooth(method = "lm", se = FALSE) +  coord_cartesian(ylim = c(0, 1))#加上逻辑斯蒂回归ggplot(myData, aes(gpa, admit)) +  geom_point() +  geom_smooth(method = "glm", se = T, method.args = list(family = "binomial"))

画个图就可以很一目了然的看出确实逻辑斯蒂比线性回归拟合更好。

好。

现在就来建模:

gpaModel <- glm(admit ~ gpa, data = myData, family = "binomial")summary(gpaModel)

首先我们是用gpa来预测admit,可以得到模型结果

可以看到结果中就有变量的系数和显著性水平,我们可以看到gpa的系数是8.708这个指的是logOR的改变量哦。

当然,我们还可以得到系数的置信区间:

exp(confint(gpaModel))

上面的例子中,我们只用了一个预测变量,接下来我们所有变量都用:

fullModel <- glm(admit ~ gpa + gre + rank, data = myData, family = "binomial")summary(fullModel)

这个时候,输出结果就比较复杂了,可以看到,gpa和gre这两个变量都有显著性意义,rank这个变量有4个水平,因为我们之前有将rank转化为因子类型,所以此时它被自动转化为3个哑变量,并且以rank1为参考水平。

同样的,我们依然可以获得各个系数的置信区间:

exp(confint(fullModel))

代码中加上exp,得到的系数就是OR的改变量了

其实这儿还想强调一点,大家注意我们这个全模型得到的gre的原始系数只有0.005345,非常的小,这是因为gre这个变量是在百这个数量级上的,而其他的变量都是个位数,就是因为这种数量级的不一致导致了系数相差巨大,所以更好的拟合方法因该是将gre这个变量进行转换,比如说以2为底数进行log转换后再拟合模型:

fullModel <- glm(admit ~ gpa + log2(gre) + rank, data = myData, family = "binomial")summary(fullModel)

这个时候再看,log2gre的系数就大小和gpa差不多了,此时系数的解释就是gre每增加2倍logOR的改变量。

我们还可以将模型系数和其自信区间同时输出:

cbind(OR=exp(coef(fullModel)),exp(confint(fullModel)))

小结

今天给大家做了一个逻辑斯蒂模型,并对系数的解释做了小小的说明。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python和R的,加油。

(站外链接发不了,请关注后私信回复“数据链接”获取本头条号所有使用数据)

往期内容:

R数据分析:线性回归的做法和优化实例

R数据分析:结构方程模型画图以及模型比较,实例操练

R数据分析:如何计算问卷的聚合效度,实例操练

数据可视化——R语言两两比较时为图形添加P值和显著性水平

R数据分析:双因素方差分析与交互作用检验

数据可视化——R语言为ggplot图形添加P值和显著性水平

R数据分析:50人中至少两人相同生日的概率有多大?模拟给你看

标签: #lmse算法推导 #逻辑斯特回归与特征选择算法 #逻辑斯特回归模型的每个样本概率作为情感值 #逻辑斯蒂回归数学建模 #逻辑斯谛回归模型的实现步骤