龙空技术网

决策树分析 之 简介

Star课堂 112

前言:

现在各位老铁们对“chaid决策树是啥意思”大致比较注重,咱们都想要了解一些“chaid决策树是啥意思”的相关资讯。那么小编也在网上网罗了一些有关“chaid决策树是啥意思””的相关文章,希望各位老铁们能喜欢,姐妹们一起来了解一下吧!

序曲

鹧鸪天·寻菊花无有戏作

【宋】辛弃疾

掩鼻人间臭腐场,古来惟有酒偏香。自从来住云烟畔,直到而今歌舞忙。

呼老伴,共秋光。黄花何处避重阳?要知烂熳开时节,直待西风一夜霜。

【译文】

从古到今人间都是“腐臭场”,只有酒是香的。自从隐居在云烟畔,每天都过的闲适潇洒。

重阳时节,呼朋唤友共享美丽秋色,只这菊花竟还未开放。看来要想菊花开的热烈绚烂,还得等待刮一阵秋风,落一夜严霜。

【赏析】

辛弃疾的词,大多借景抒情、咏物言志,他的这首《鹧鸪天》也不例外。自从南归之后,他本希望能得到南宋政权的重用,报效国家,恢复中原,展露才干,但没想到他的这些志向不仅未能实现,反而遭奸臣谗害,落得被迫过上闲居生活。他虽寄情山水,但仍时常流露出一股愤愤不平之气。此词虽题为《寻菊花无有,戏作》,但整个上片都未直接接触题目,只是愤世嫉俗之情的抒发;就是下片,对题目说来,也只是点到而已。

开头两句:“掩鼻人间臭腐场,古今惟有酒偏香。”仿佛凭空而来,却又发自心灵深处,是饱经风霜,到过了庙堂官场、都会边疆,目睹了官场丑恶之后的十分痛苦的总结和极端厌恶的心态。

结尾两句:“要知烂熳开时节,直待秋风一夜霜。”是说菊花的开放,还得等待刮一阵秋风,落一夜严霜。这只是字面意思,实际是赞美菊花不趋炎附势而傲霜凌寒的品格。赞美菊花的这一品格,也是表明作者的品格。

通观全篇,这首词虽写法不合常规,但作者本意不在按题作文,而在借题发挥,表现他愤世的情怀和如菊的品格。

注:来源于 古诗文网

决策树简介

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

分类树(决策树)是一种十分常用的分类方法。它是一种监督学习,所谓监督学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

在SPSS中,可通过决策树模块用于创建决策树模型,可帮我们快速准确识别特定群体、研究群体之间的相关关系以及预测未来事件,决策树可用于数据分类、数据降维、预测、变量筛选、类别合并、连续变量离散化等方面。

在讨论决策树模型之前,有必要熟悉一下其中的术语:

o 结(Node):一个样本群体在树模型中表示为图中的一个节点

o 根(Root):树的起始点(包括所有的样本)

o 叶(Leaf):树的终止点

决策树的理解

从几何意义上可以直观地理解决策树的含义。将训练样本集中的每个观测都看成是n维(指n个输入变量)空间的一个点,决策树的建立过程就是它的分枝的形成过程,一个分枝就是在一定规则下对n维空间的一次区域划分;当决策树建立好以后,n维空间便被划分成了若干个区域;由于n维空间不易于观察,一般采用树形结构图的方式表示决策树。

例如:我们要出门打篮球,一般会根据“天气”、“温度”、“湿度”、“刮风”这几个条件来判断,最后得到结果:去打篮球?还是不去?

决策树一般分为两大类型。分类决策树主要用于对离散因变量的分类;回归决策树主要用于对连续因变量的预测。可见决策树主要用于分类和预测分析中,例如判断某些顾客是否为理想的潜在客户,预测具有某种特征的客户在未来的消费金额等。用决策树对一个新的样本预测时,它自动根据输入变量的取值决定穿越决策树并达到最终叶节点的路径;如果是分类数,就根据最终节点的因变量的取值确定对新观测的分类,并给出相应的可信度。

决策树的模型有不同的算法,一般地,决策树算法主要围绕两大核心问题展开。第一,决策树的生长问题,即利用训练样本集建立决策树的过程第二,决策树的剪枝问题,即如何对建立的初始决策树进行节点合并及优化处理

决策树的生长

决策树生长的本质是对一个对训练样本集不断分组的过程,树上的分枝正是在这个过程中逐渐生长出来的。当所有分枝的数据均无法继续细分时,一颗完整的决策树就形成了。

决策树生长的核心算法就是确定它的分枝准则,这就涉及到两个问题:

第一, 如何从众多输入变量中选择一个最佳的分枝变量;

第二, 如何从指定分枝变量的众多取值中找到一个最佳分枝阈值。

现在有很多算法实现决策树的生长,如ID3/C4.5/C5.0/CHAID/CART等。用户在使用时,只需设置或调整几个简单的参数,就能方便地建立决策树模型,同时完成对决策树的优化处理。

决策树的修剪

随着决策树的生长,叶节点含有的样本量不断减少,他们对总体的代表性也不断降低,越深处的节点所体现的特征就越具体,一般性也越差,甚至可能出现如此的结论:只有年收入大于50000元、年龄大于50岁,且姓名是张三的人,才是公司的理想客户。

由此可见,虽然一颗完整的决策树能比较准确反映训练样本的数据特征,但因此也可能失去模型的一般代表性,使它不适用于对新数据的分类或预测。这种现象称为过度拟合,解决方法之一是对决策树进行必要的修剪,常用的修剪技术有预修剪和后修剪两种

(1)预修剪技术:

最直接的方法是事先指定决策树生长的最大深度,使它不能过度伸张,但这种方法需要我们对变量的取值分布有较为清晰的了解,并且需要对各种参数的取值反复进行尝试,否则无法给出一个较为合理的深度最大值。如果树的深度太浅,表示过于限制了决策树的生长,容易使它的代表性变得很差,这样无法实现对新数据的有效分类或预测。

预修剪的其他方法都是采用检验技术来阻止决策树的过度生长,他们通过对树节点的各种检验,决定是否允许相应的分枝继续生长。较为简单的一个检验方法是为防止最终节点的样本量过少,事先给它指定一个最小值:在决策树生长过程中,将不断检验树节点的样本量是否小于所允许的最小值,若小于就停止分枝的继续增长,否则可以继续分枝。另外,还可以利用统计检验(如卡方检验等)的方法检验树节点内部的差异显著性,以判断是否分枝。常用预修剪的常用算法 chaid、id3、C4.5等。

(2)后修剪技术

从另外一个角度解决过度拟合的问题,它先让决策树充分生长,再根据一定的规则,剪去那些不具有一般代表性的叶节点或分枝

后修剪技术是一个边修剪边检验的过程,一般规则是在剪枝过程中,利用训练样本集或验证样本集,不断检验决策树对目标变量的预测精度,并计算相应的错误率;用户实现指定了一个最大的允许错误率,当剪枝达到某个深度时,若计算出的错误率高于允许的最大值,就停止剪枝,否则可以继续剪枝,利用训练样本集计算修剪的错误率,会出现错误率越低决策树复杂程度越高的现象;比较合理的做法是利用验证样本集对剪枝效果进行检验,当错误率明显增大时,再停止剪枝。使用的后修剪的常用算法有CRT等。

决策树特点

决策树模型的主要优势:

模型容量大:决策树模型会在所有的自变量中按照贡献的大小一次挑出自变量进入分析,因此可以自动处理大量的自变量,不用担心无关变量纳入模型后干扰模型效果等问题使用范围广:多决策树算法均为非参数方法,因此没有太多的适用条件限制,应用范围更广,也更适合于对各种复杂的联系进行分析。分析原理与所得结果简单易懂,很容易被业务部门所理解和接受,对使用者的要求较其他数据挖掘模型更低。相同数据量,相同的软、硬件环境下,构建决策树模型的时间较其他数据挖掘算法短。适用面广,目标变量既可以是离散变量,也可以是连续变量。更难得的是,决策树模型可以有效地处理数据中自变量缺失的问题,除了把缺失值归到众数这一类外,还可以将其设置成独立的一个分类。

决策树模型的缺点:

不能对影响因素的作用大小进行精确的定量描述 对于线性关联、无交互作用的数据,其分析效果和模型解释性均不如普通统计模型 需要较大的样本量才能保证逐层细分后单元格内仍能有充分的样本数 对于结果的解释和应用过于灵活,没有严格的标准可循决策树应用与注意事项

除了分类和预测,决策树还可以用于生成推理规则、寻找最佳变量等方面。

把决策树看做是推理规则的一种图形表示,用它能方便地输出推理规则的其他表现形式。另外,由于决策树的建立过程是一个不断选择最佳分枝变量的过程,一般高层节点比低层节点上的分枝变量对区分因变量的作用要大,所以可以把决策树作为一种衡量变量价值大小的工具。在其应用中,应注意下面的问题:

(1)一般的决策树算法中只能依据单个变量的取值对某个节点进行分枝,无法同时使用多个分枝变量,这在一定程度上限制了决策树的应用范围。一种改进方法是事先利用多个变量计算出的新变量。如比值、多项式求和等,然后再用新变量作为分枝变量。

(2)决策树所处理的输入变量既可以是连续型的,也可以是分类型的。对于连续自变量,优势是当数据采用不同的计量单位或存在离群点时,不会给决策树带来显著影响,因而不会给数据的准备工作造成额外负担;缺点是忽略了数据中所蕴涵的关于分布形态的信息。对于分类自变量,决策树的建树效率会比较高;但问题是当分类取值很多且分布又极为分散时,决策树容易长得过于茂盛,使最终节点的样本量变得很少;此时,一种改进的方法是将样本量较少的类合并,但由于类间合并有很多可选择的方案,只有穷尽所有方案后才有可能得到较好的合并结果,而穷尽操作的可行性又受到实际应用的限制。

标签: #chaid决策树是啥意思