龙空技术网

决策树分析 之 决策树

Star课堂 242

前言:

而今各位老铁们对“决策数chaid算法”大体比较着重,你们都需要知道一些“决策数chaid算法”的相关资讯。那么小编在网摘上网罗了一些有关“决策数chaid算法””的相关资讯,希望姐妹们能喜欢,咱们快快来学习一下吧!

序曲

洞仙歌·咏柳

【宋】苏轼

江南腊尽,早梅花开后,分付新春与垂柳。细腰肢自有入格风流,仍更是、骨体清英雅秀。

永丰坊那畔,尽日无人,谁见金丝弄晴昼?断肠是飞絮时,绿叶成阴,无个事、一成消瘦。又莫是东风逐君来,便吹散眉间一点春皱。

【赏析】

全章用拟人法写柳,垂柳是词中的“主人公”。它身段苗条。体态轻盈,仪容秀雅。然而却寂寞无主,被禁锢在园林的一角。感受不到春光的温暖,也看不到改变命运的希望。这婀娜多姿、落寞失意的垂柳,宛然是骨相清雅、姿丽命蹇的佳人。词中句句写垂柳,却句句是写佳人:这佳人或许是向苏轼索词的倩奴,或许是与倩奴命运相似的女性。至少可以说,作者是以婉曲的手法,饱和感情的笔墨,描写了一位品格清淑命运多舛的少女形象,对之倾注了同情。

宋代词论家彭孙说:“咏物词极不易下,要须字字刻画,字字天然。方为上乘。”(《金粟词话》)咏物含瘟深湛,在于寄托,“贵有不枯不脱之妙。”(《莲子居词话》)苏轼此词正具有这些优点。它句句刻画垂柳,清圆流杨,形神兼到,熨贴自然。并借柳喻人,把人的品格与身世融入对柳的形神描幕之中。物中有人,亦物亦人,既不粘滞于物,也不脱离听咏课题。就风格而论,此词缠绵幽怨,娴雅婉丽,曲尽垂柳风神,天然秀美处有似次韵章质夫的《杨花词》,而又别具一段倾城之姿。

注:来源于 古诗文网

SPSS实现决策树分析

示例:为简要说明决策树基本原理,设y为妊娠分娩结果(是否为早产),0-1表示;有两个自变量,x1—表示引流量(两/天),x2-年龄,均为连续性变量。数据如下:

1.菜单选择打开 分析—分类—决策树2.参数说明与选择

(1)主页面

a.因变量:选择一个因变量

b.自变量:可选择多个自变量

c.强制第一个变量:若选择,直接将自变量列表中的第一个变量作为决策树生长的开始阶段的分枝变量

d.影响变量:选择影响自变量,该变量反应单个观测对决策树生长的影响程度,取值越大影响越大;必须为数值型变量,且不能设置因变量为影响变量;若指定QUEST算法,则忽略变量

e.生长法:用于指定决策树的生长方法

CHAID:卡方自动交感检测法,它每一步都选择与因变量相关性最强的自变量作为预测变量,合并那些因变量没有显著性差异的预测变量取值。目标变量可以是分类、顺序、间距和比例的。穷举CHAID:改进的CHAID算法,检查每个预测变量所有可能的分枝方案,因此计算量比CHAID大,但保留了CHAID算法的优点,有时可找到比CHAID算法更好的决策树划分。CRT树:分类归属,把数据分到因变量取值尽可能一致的分支,因变量取值都相同的最终节点称为纯节点。同一个预测变量可以出现在不同层次的节点中,倾向于在决策树中包含有较多类别的预测变量,因此效率不高,所得到的树结构的可靠性也不高。同时,它的计算比较复杂,对于数据量很大的情形,计算所需的实际较长,其优点:可以计算每一层节点的错误分类成本;允许设定分类的先验概率分布;可以运用成本复杂性剪枝来得到更通用的决策树。QUEST:快速、无偏、有效的统计树,避免其他算法对多分裂变量的青睐,只有因变量为名义变量可选。其缺点是目标变量智能是类别变量。

(2)目标取值的定义:点击主页面的 因变量 下类别,弹出以下对话框

类别:给出当前因变量的值标签,必须预先定义目标:用于选择目标取值,本例选择 早产排除:用于选择不参与分析的因变量取值

(3)输出选项卡

a.树 选项卡:给出树的相关形式

输出:设置图形决策树的输出格式

-- 方向:显示树形的方向,从上到下(根节点置于顶部)、从左向右(根节点在左边)、从向左(根节点在右边)

-- 节点内容:包括表格、图形、表格和图形三种。对于分类变量,节点会显示其频数统计信息或者条图形;对于连续变量,节点会显示均值、标准差、样本数等统计信息或柱状图

-- 显示范围:自动显示(根据决策树的大小自动调整)与定制

自变量统计信息:对于CHAID和Exhaustive Chaid算法,要求在节点中显示连续Ian里的F统计量值、显著性水平和自由度,以及分类变量的卡方统计量、显著性、自由度等;对于CRT算法,显示每步的改进值;对QUEST算法,显示连续变量和有序变量的F统计值、显著性与自由度,以及名义变量的卡方统计信息节点定义:显示父节点分枝时所用的自变量在每个子节点的取值。

b.统计 选项卡

模型:设置关于模型的统计信息

-- 摘要:包括模型方法、进入和没进入模型的变量等信息

-- 风险:用于衡量决策树的预测精度。对于分类因变量,风险估计就是经先验概率和错判损失调整后的错判比率;对于连续因变量,风险估计就是节点内的方差

-- 分类表:对于分类因变量,给出其每个取值水平上的判断正确数和错误数;对于连续因变量,不做任何输出。

-- 成本、先验概率、得分和利润值:对于分类因变量,输出错判损失函数、先验概率、得分和分析所使用的得益函数;对于连续因变量,不做任何输出。

自变量

-- 对模型的重要性:对于CRT方法,把模型中的自变量按其重要性进行排序,该选项对QUEST和CHAID方法无效。

-- 替代变量:对CRT和QUEST算法,如果模型有可替代的解决方案,就列出所有可能方案,对CHAID算法无效。

节点性能

--摘要:对连续因变量,此表包括节点序号、样本数及自变量均值;对于定义得益函数的分类因变量,此表包括节点序号、样本数、平均得益和ROI。

-- 按目标类别:对于定义的目标取值的分类因变量,包括得益比例、响应比例、以节点或百分位后的lift值。对因变量的每个目标取值输出一个表格,对连续因变量和未定义目标的分类因变量不做输出。

行:指定节点信息表的显示方式,包含最终节点、百分位和两者独有;若选择两者都有,为因变量的每个目标取值输出两个表格,百分位表按指定顺序依次显示排序:有升序和降序两种选择显示累积统计信息:选择后,在每个最终节点表里增加一列显示累计结果

c.图 选项卡

对模型的自变量重要性:选择后,输出自变量对模型的重要性条形图,仅对CRT方法有效。节点性能

-- 增益图:指每个节点中因变量目标值所占的比例,计算方式为 单个节点的目标取值个数/总的目标取值个数;增益图就是对指定百分位的增益累积线型图;对于因变量的每个目标取值,单独作一个增益图,仅对定义了目标取值的分类因变量有作用。

-- 索引图:指定百分位点的累计指示线形图。累计指示指标的计算公式:累计响应比例/总样本的响应比例

-- 响应图:指定百分位点的累计响应线性图。累计响应的计算公式:累计的目标取值个数/累计的总个数。

-- 平均值:指定百分位点的关于因变量均值累计线形图,仅对连续的因变量有效。

-- 平均利润:累计平均利润的线形图,仅对定义得益函数的分类因变量有效。

-- 投资收益率:累计的ROI线形图。ROI指的是得益对开支的比率,仅对得益函数的分类因变量有效。

d.规则 选项卡

生成分类规则:表示输出分类决策规则语法:设置规则的语句格式

-- SPSS:输出SPSS命令语句(Syntax),决策规则主要以filter语句或compute语句给出

-- SQL:输出标准的SQL语句,用于对数据库中的记录进行筛选或赋值

-- 简单文本:决策规则有if-then语句描述

(4)验证 选项卡

交叉验证:将样本分为多个子样本,然后对每个子样本,用不包含他的其他数据建立一个决策树,再计算决策树对这个子样本错判率,以验证决策树模型的分类效果。方法最终通过所有数据建立一个决策树模型,模型的风险估计采用前面所有子模型风险的平均值。子样本的个数不能超过25.样本分离验证:该方法可将样本划分为训练样本和验证样本,用训练样本拟合决策树模型,用验证样本检验模型。

-- 随机划分:可设定训练样本的比例

-- 按变量:指定变量划分数据集。不能指定因变量、权重变量、影响变量或者强制进入模型的自变量划分为数据集的变量

结果显示:设置样本的输出分析结果,可设置训练集和验证集的相关结果,也可值输出验证集的相关结果。

(5)条件 选项卡

a.增长规则 选项卡

最大树深度:指定决策树在根节点一下的最大深度(不含根节点)

--- 自动:对于CHAID和改进的CHAID算法,最大深度为3,对于CRT和QUEST,最大深度为5

--- 定制:在输入框中指定一个代表最大最大深度的取值。

最小个案数:设定每个节点需要的最少样本数

-- 父节点:指定父节点需要的最少样本数,默认为100,本例选择10

-- 子节点:指定子节点需要的最少样本数,默认为50,本例选择5

不符合对样本数的限制的阶段将不会被分支,增大这两个最小值会使决策树的节点减少,反之亦然。当样本较少时,如果再采用默认的最少样本数,可能会输出只有根节点的决策树,此时输入较小的临界值才能得到更有意义的决策树

b.CHAID 选项卡

以下项的显著性水平:可指定分割节点显著性水平临界值,默认为0.05;也可指定合并节点的显著性水平的临界值,默认为0.05.卡方统计:可选择皮尔逊卡方(计算速度快,但用于小样本时要谨慎考虑,默认值)或者似然比卡方(相对而言,比皮尔逊卡方稳定,但计算费时间,适合小样本)。模型估算:

-- 最大迭代次数:默认为100,如果决策树生长由于达到最大迭代次数而停止。

-- 期望单元格频率中的最小更改:指定单元格频数的自小该变量,此值越小,生成的节点越少。

使用Bonferroni方法调整显著性:对于多重比较,使用Bonferroni方法调整合并或分割节点时的显著性说明,默认选择允许重新拆分节点中合并后的类别:除非指定了不进行节点合并,否则将对自变量取值进行可能的合并,以生成最简单的决策树。选择后,表示允许对合并的节点进行重新分割以生成更好的决策树。

c.区间 选项卡

在CHAID算法中,分析前要把连续自变量重新划分为离散的区间,例如0-10,11-20,21-30等。而在计算过程中,这些区间又可能被再度以不同的方式合并。区间标签允许用户设置连续自变量最初被离散化的分组个数,同时也是最大个数。固定数值:默认为10,所有连续自变量最初都被分为指定个数的区间自定义:分别自定义每个变量的参数

-- 在自定义的二维表格中,变量显示当前可用的连续自变量,区间:用于输入同行自变量的初始分组个数.

(6)保存 选项卡

终端节点数:保存每个样本所属最终节点的序号预测值:保存由模型预测的因变量值预测概率:对于分类因变量,保存预测分类属于各类别的概率。因变量有几个类别就保存几个变量,对连续因变量不可用样本分配:记录单个样本是用于训练还是用于验证。将树模型以XML格式导出:设置模型格式输出到指定的XML文件选项。可分为训练和验证样本的输出。

(7)选项 选项卡

a.错误分类成本

在各类别之间相等:表示对各种错判分类的惩罚都一样自定义:由用户自定义错判惩罚函数

只有当分类因变量至少设置了两个值标签时,此选项才可用。在下面的二维表格中设置具体的惩罚措施。行表示分类,类表示预测分类。对角线上是正确预测的情况。惩罚都为且不可编辑,其他单元格都是对预测错误的惩罚,例如以蓝色线框标识的单元格表示把不合适的预测为合适的惩罚为1,用户指定的惩罚值必须非负。

b.利润

不适用收益函数自定义:用户自定义收益函数

只有当分类因变量至少设置了两个值标签时,此选项才可用。在下面的二维表格中设置具体的收益取值。第一列显示当前分类因变量的取值标签。

-- 收入:输入对当前行的值标签预测正确时的收入值

-- 费用:输入当前行的值标签预测正确时的开销值

-- 利润:表示收益值,自动有 收入-费用 计算得出。

3.分析结果与解释

(1)模型摘要:

模型汇总的信息,包括因变量、自变量、生长方法和验证方法,以及最终输出的决策树模型的基本信息,包括用到的自变量、节点数、最终节点数和决策树深度

(2)图形决策树输出:

从树形图可看出,三个最终节点分别为节点1、节点3、节点4,其中也看到相应预测百分比。

(3)收益输出:给出了用决策树进行分类的收益信息。所谓收益,就是在每一节点上,属于目标类别的样本占全部属于目标类别样本的百分比,相应地,对最终节点按照收益从最高到最低进行排序形成的表格,就是收益表。

在下表中,第1列为节点,第2列表示节点内的样本数,第3列表示该节点内的样本占总样本的比例,第4列表示节点内目标变量取值为1,即“早产”的样本数;第5列表示该节点中符合目标值的样本数总样本数的比例;第6列表示该节点中目标值占该节点总样本数的比例;第7列指数等于 第5列/第3列 百分比,指数平均水平为100%,大于100%说明该节点的目标变量比例高于平均水平;相反,若小于100%,则该节点中的目标变量比例低于平均水平。增益:显示了因变量的目标取值分布情况;响应:显示当前节点的目标响应;指数:显示增益百分比和节点百分比的比值。

(4)总体预测分类:最终决策树模型进行分类的汇总表

由下表可见,总体准确率为100%

(5)分类规则

/* Node 1 */.DO IF (SYSMIS(年龄(岁)) OR (VALUE(年龄(岁)) LE 26)).COMPUTE nod_001 = 1.COMPUTE pre_001 = 0.COMPUTE prb_001 = 1.000000.END IF.EXECUTE./* Node 3 */.DO IF (VALUE(年龄(岁)) GT 26) AND (SYSMIS(饮酒量(两天)) OR (VALUE(饮酒量(两天)) LE 1.3)).COMPUTE nod_001 = 3.COMPUTE pre_001 = 0.COMPUTE prb_001 = 1.000000.END IF.EXECUTE./* Node 4 */.DO IF (VALUE(年龄(岁)) GT 26) AND (VALUE(饮酒量(两天)) GT 1.3).COMPUTE nod_001 = 4.COMPUTE pre_001 = 1.COMPUTE prb_001 = 1.000000.END IF.EXECUTE.
4.语法
* 决策树.TREE 早产 [n] BY 年龄(岁) [s] 饮酒量(两天) [s]/TREE DISPLAY=LEFTTORIGHT NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO/DEPCATEGORIES USEVALUES=[0 1] TARGET=[1]/PRINT MODELSUMMARY CLASSIFICATION RISK/GAIN CATEGORYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO/PLOT GAIN INDEX RESPONSE INCREMENT=10/RULES NODES=TERMINAL SYNTAX=INTERNAL TYPE=SCORING/SAVE NODEID PREDVAL PREDPROB/METHOD TYPE=CHAID/GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=10 MINCHILDSIZE=5/VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES/CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=NO CHISQUARE=PEARSON CONVERGE=0.001MAXITERATIONS=100 ADJUST=BONFERRONI INTERVALS=10/COSTS EQUAL.

标签: #决策数chaid算法