前言:
今天同学们对“回归分析法的基本步骤有”大致比较注意,同学们都需要学习一些“回归分析法的基本步骤有”的相关文章。那么小编也在网摘上收集了一些对于“回归分析法的基本步骤有””的相关知识,希望你们能喜欢,朋友们一起来了解一下吧!在疾病的病因学研究中,经常需要分析疾病的发生与各危险因素之间的定量关系,logistic回归模型就是病因研究最常用的分析方法之一。
往年,众多院校都对logistic回归模型
进行了形式多样的考察
接下来就和小卫一起来学习巩固一下吧!
真题来源:中山大学 2023年论述题 第1题
某研究者欲分析年龄(x1)、性别(x2)、病人的文化程度(x3)、治疗前体重(x4)、治疗中是否出现漏服(x5)、治疗前最近一次CD4+结果(x6)、治疗中是否换药(x7)等因素对艾滋病治疗有无效果(y)的影响,使用了logistic回归分析模型,使用“Enter”法进行变量筛选。变量赋值及分析结果如下表:
① βj的大小说明了这些影响因素对艾滋病治疗效果的大小,能不能这样表述?如果不能,请说明原因。
② 偏回归系数和OR之间有何关系,请用公式表示,并计算x3,x4,x5,x6的OR值分别为多少。
③ 男女赋值改变(从男=1、女=0变成男=1、女=2),偏回归系数有何变化?
④ “Enter”法是否正确,为什么?
*题目为回忆版,具体数值可能存在偏差,仅供参考学习。
究竟什么是logistic回归模型?
我们来回顾一下吧!
01 logistic回归模型简介
20世纪60年代初,Cornfield等首次使用logistic回归,1967年,Walter和Duncan使用这种方法来估计一个过程发生的概率作为其他变量的函数,在20世纪80年代,logistic回归模型的使用有所增加,目前它是卫生科学,特别是流行病学研究中使用最广泛的统计方法之一[1]。
Logistic回归模型
Logistic回归是研究二分类或者多分类观察结果与某些影响因素之间关系的一种多重回归分析方法,是概率非线性回归模型。Logistic回归模型的基本公式为:
Logistic回归模型分类
Logistic回归模型的反应变量可为二分类无序多分类或有序分类变量;解释变量可以是任意类型,如定量变量、二分类变量、无序多分类变量或有序分类变量等。可根据因变量类型分为以下三种[2]:
① 二项logistic回归
因变量为两种结局的二分类变量,如患病=1、未患病=0。
② 无序多分类logistic回归
因变量为无序的多分类变量,如患者的血型(A型=1,B型=2,AB型=3,O型=4)。也可用于因变量为有序多分类变量,但不满足平行检验条件的数据资料(原理:将因变量的多个分类依次分割为多个二元的Logistic回归;须进行平行线检验,即检验自变量系数是否相等,如不满足,则使用无序多分类logistic回归。)。
③ 有序多分类logistic回归
因变量为有序的多分类变量,如药物疗效(治愈=1,显效=2,好转=3,无效=4)。
Logistic回归模型参数估计
参数估计是指根据收集到的应变量Y与一组自变量X的样本观察值,估计出Logistic回归模型中的回归系数β0,β1,…βm,以及回归系数估计值的标准误。估计方法通常为最大似然法(Maximum likelihood,ML)。
Logistic回归模型假设检验
Logistic回归模型假设检验包含两个内容:一是针对整个模型的检验,二是检验单个回归系数是否为零,最常用的检验方法有:似然比检验和Waldχ2检验两种。
✅ 似然比检验
① 似然比检验(Likelihood ratio test)常用于对整个模型的检验,其检验假设为:
▪ H0:β1=β2=…=βm=0,即自变量总体回归系数均为0。
▪ H1:自变量总体回归系数不全为0,α=0.05。
② 似然比检验统计量为G,其计算公式为:
G=2(lnLq-lnLp)。
③ 可以证明,在H0成立的条件下,如果样本量较大,G近似服从自由度为q-p的χ2分布。若G>χ20.05(q-p),则在α=0.05的检验水准上拒绝H0,即至少有一个回归系数不为0。
✅ Waldχ2检验
① Waldχ2检验可用于对单个回归系数进行假设检验。若有m个回归系数,其检验假设为:
▪ H0:βj=0。
▪ H1:βj≠0。(j=1,2,…m),α=0.05
Logistic回归系数的流行病学意义
将logit(π)视为一个整体,回归系数的解释类似多重线性回归,回归系数βi为:其他解释变量保持不变时,解释变量xi每改变1个单位,logit(π)的平均改变量。
Logistic回归模型的回归模型的回归系数具有特殊含义,其解释可与流行病学中的优势比联系起来,公式为:
流行病学意义为:
其他解释变量不变时,暴露于某影响因素xi相对于非暴露于该影响因素的值的自然对数;或者调整(控制)其他解释变量的影响后,解释变量xi每增加一个单位,得到的优势比的自然对数。
● 当β=0,OR=1,暴露与结局间不存在关联;
● 当β≠0,OR≠1,暴露与结局间存在关联。
● 当解释变量xi的回归系数
▪ βi>0时,ORi>1,提示xi为危险因素(增加结局发生的风险);
▪ βi<0时,ORi<1,提示为保护因素(降低结局发生的风险)。
Logistic回归模型适用条件
① 建立Logistic回归模型时,要求研究对象间彼此独立,即个体间具有独立性。
② Logistic回归模型的反应变量可为二分类、无序多分类或有序分类变量;解释变量可以是任意类型。
主要用途[2]
① 影响因素分析
通过回归系数与优势比,logistic 回归模型可以对影响事件结局的因素进行多因素分析,从多个影响因素中筛选出危险或保护因素。
② 预测
如果已经建立了logistic回归模型,则可根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。
③ 判别
根据logistic模型,判断某人属于某病或属于某种情况的概率有多大。
Logistic回归模型应用注意事项
① 注意变量的类型
应变量是结果相互独立的分类变量,自变量可为各种类型的变量。与线性回归分析时一样,当自变量为分类变量时,应注意变量的赋值。
② 要有足够的样本含量
一般样本含量应多于多重线性回归分析时所需的样本量,要求大于自变量个数的20倍。配比组设计时,配比组数宜大于50。
③ 因素间的交互作用
Logistic回归模型可以分析处理因素间的交互作用,但是交互作用的模型为乘法模型。在用SAS软件处理时,应在数据步中将考察交互作用的自变量相乘,产生一个新的自变量后再参与计算、分析过程。
结合近年来的考试趋势,众多院校常结合统计软件结果进行考察!
话不多说,接下来我们来学习一下
logistic回归模型统计软件结果的解读!
02 SAS软件结果为例
某研究者为了分析影响前列腺癌细胞淋巴结转移的影响因素,收集了53例术前检查的前列腺癌患者的有关资料,包括接触X射线(X-ray)前探针活检病理分级(rade)、直肠指检肿瘤的大小(stage)、年龄(age)、碱性磷酸酶(acid),于术探查淋巴结转移的结果(y=1为“转移”,y=0为“无转移”)。
以y为应变量,以接触X射线、术前探针活检病理分级、直肠指检肿瘤的大小,年龄及碱性磷酸酶为自变量,建立Logistic回归方程,SAS结果如下:
问题1:分析结果中的主要参数表示什么意思?
①Estimate为偏回归系数,表示当方程中其他解释变量保持不变时,解释变量xj变化一个观测单位,反应变量y平均变化βj个单位。b0,b1,b2,b3,b4,b5分别为0.0618,2.0453,0.7614,1.5641,-0.0693,0.0243。
②Standard Error为标准误,分别为3.4599,0.8072,0.7708,0.7740,0.0579,0.0132。
③Chi-Square为Wald值,分别为0.0003,6.4208,0.9759,4.0835,1.4320,3.4230。
④Pr> ChiSq为假设检验的P值,分别为0.9857,0.0113,0.3232,0.0433,0.2314,0.0643,在α=0.05的检验水准上,只有X-ray及stage有统计学意义。
⑤Standardized Estimate表示标准偏回归系数,分别为0.5128,0.2054,0.4352,-0.2355,0.3517,此系数消除了单位的影响,可以相互间进行比较。在本分析结果中,X-ray及stage是有统计学意义的,根据标准偏回归系数进行比较,接触X射线对前列腺癌细胞淋巴结转移的影响大于直肠指检肿瘤的影响。
真题透视
真题来源中山大学 2023年论述题 第1题
某研究者欲分析年龄(x1)、性别(x2)、病人的文化程度(x3)、治疗前体重(x4)、治疗中是否出现漏服(x5)、治疗前最近一次CD4+结果(x6)、治疗中是否换药(x7)等因素对艾滋病治疗有无效果(y)的影响,使用了logistic回归分析模型,使用“Enter”法进行变量筛选。变量赋值及分析结果如下表:
① βj的大小说明了这些影响因素对艾滋病治疗效果的大小,能不能这样表述?如果不能,请说明原因。
② 偏回归系数和OR之间有何关系,请用公式表示,并计算x3,x4,x5,x6的OR值分别为多少。
③ 男女赋值改变(从男=1、女=0变成男=1、女=2),偏回归系数有何变化?
④ “Enter”法是否正确,为什么?
*题目为回忆版,具体数值可能存在偏差,仅供参考学习。
✨ 答题思路
题目中的关键词为:
logistic回归分析模型、治疗效果的影响因素;
对应的知识点为:
logistic回归模型;
答题落脚点为:
logistic回归分析模型结果的正确解读,偏回归系数和标准偏回归系数的比较,OR和偏回归系数的正确理解,什么是“Enter法”。基于以上分析,结合题目具体数据结果进行答题。
✨ 参考答案
① 不能这样表述,βj为解释变量xj的偏回归系数,当方程中其他解释变量保持不变时,解释变量xj变化一个观测单位,反应变量y平均变化βj个单位,βj的符号也可以用于判断解释变量xj对反应变量影响的方向。由于各变量量纲可能不一致,多重线性回归模型的各偏回归系数不能直接用来比较其对反应变量y的影响大小。比较大小需要使用标准偏回归系数,标准化偏回归系数消除了变量的量纲及其离散程度的影响,其绝对值可用来比较各解释变量对反应变量y的影响大小。
② OR=exp(βp)
OR(x3)=exp(-0.566)=0.568
OR(x4)=exp(-0.525)=0.592
OR(x5)=exp(0.761)=2.140
OR(x6)=exp(-0.950)=0.387
③ 偏回归系数不会受到影响,因为性别为二分类变量,赋值为0和1还是赋值为1和2,都可以进行logistic回归,不影响最后的结果。
④ “Enter”法是将所选自变量强制性引入模型中进行拟合,不涉及变量筛选的问题,“Enter”法优点是将全部变量纳入回归模型中全面分析,缺点可能其中有的变量之间存在共线性时结果有偏差。
小卫点睛·课本定位
《卫生统计学》
人卫八版,李晓松主编
第十三章 多重回归分析简介
《实用医学统计学与SAS应用》
苏州大学,张明芝主编
第十八章 logistic回归分析
《医学统计学》
第四版,孙振球、徐勇勇主编
第十六章 Logistic回归分析
通过上面真题解析例题,可以看出同学们在日常刷题时,要学会总结答题思路,不能刷完题对完答案就算完成了,导致答完之后对知识点还是模糊不清!
【卫灿·院校真题解析库】对主观题答案分条列出,部分题目还提供分值标记。帮助各位学员养成良好的答题习惯、提升自身的答题能力的同时,进一步加深记忆!
参考文献
[1]Domínguez-Almendros S, Benítez-Parejo N, Gonzalez-Ramirez AR. Logistic regression models. Allergol Immunopathol (Madr). 2011 Sep-Oct;39(5):295-305. doi: 10.1016/j.aller.2011.05.002. Epub 2011 Aug 4. PMID: 21820234.
[2]
[3]
[4]王曼怡,朱家明,孔昊.基于Logistic模型对心血管疾病风险的预测[J].齐齐哈尔大学学报(自然科学版),2017,33(05):64-68.
标签: #回归分析法的基本步骤有