龙空技术网

决策树分类算法

自由坦荡的湖泊AI 95

前言:

目前看官们对“二元决策树算法”大约比较关切,朋友们都需要分析一些“二元决策树算法”的相关资讯。那么小编也在网上收集了一些有关“二元决策树算法””的相关文章,希望各位老铁们能喜欢,我们一起来了解一下吧!

决策树是一种监督学习技术,可用于分类和回归问题,但大多数情况下它更适合解决分类问题。它是一个树形结构的分类器,其中内部节点代表数据集的特征,分支代表决策规则每个叶节点代表结果。在决策树中,有两个节点,即决策节点叶节点。决策节点用于做出任何决策并具有多个分支,而叶节点是这些决策的输出并且不包含任何进一步的分支。

注意:决策树可以包含分类数据(是/否)以及数值数据。

决策树术语根节点:根节点是决策树的起点。它代表整个数据集,该数据集进一步分为两个或多个同构集。叶子节点:叶子节点是最终的输出节点,得到叶子节点后树就无法进一步分离。分裂:分裂是根据给定条件将决策节点/根节点划分为子节点的过程。分支/子树:通过分裂树而形成的树。修剪:修剪是从树上去除不需要的树枝的过程。父/子节点:树的根节点称为父节点,其他节点称为子节点。决策树算法:步骤 1:从根节点开始创建树,S 表示,它包含完整的数据集。步骤 2:使用属性选择度量 (ASM)查找数据集中的最佳属性。步骤 3:将 S 划分为包含最佳属性的可能值的子集。Step-4:生成决策树节点,其中包含最佳属性。步骤 5:使用步骤 -3 中创建的数据集的子集递归地创建新的决策树。继续此过程,直到达到无法进一步对节点进行分类的阶段,并将最终节点称为叶节点。

示例:假设有一位候选人收到了一份工作邀请,并想决定是否接受该工作邀请。因此,为了解决这个问题,决策树从根节点(ASM 的 Salary 属性)开始。根节点根据相应的标签进一步分裂为下一个决策节点(距办公室的距离)和一个叶节点。下一个决策节点进一步分为一个决策节点(Cab 设施)和一个叶节点。最后,决策节点分裂为两个叶节点(接受报价和拒绝报价)。考虑下图:

属性选择措施

在实现决策树时,出现的主要问题是如何为根节点和子节点选择最佳属性。因此,为了解决此类问题,有一种称为属性选择度量或 ASM 的技术。通过这种测量,我们可以轻松地为树的节点选择最佳属性。ASM 有两种流行的技术,它们是:

信息增益基尼指数1.信息增益:信息增益是基于属性对数据集进行分割后熵变化的度量。它计算某个功能为我们提供了多少有关某个类的信息。根据信息增益的大小,对节点进行分裂,构建决策树。决策树算法总是试图最大化信息增益的值,并且首先分裂具有最高信息增益的节点/属性。可以使用以下公式计算:2. 基尼指数:基尼指数是在 CART(分类和回归树)算法中创建决策树时使用的杂质或纯度的度量。与高基尼指数相比,应优先考虑基尼指数低的属性。它仅创建二元分割,而 CART 算法使用基尼指数来创建二元分割。基尼指数可以使用以下公式计算:

修剪:获得最优决策树

剪枝是从树中删除不必要的节点以获得最优决策树的过程。

太大的树会增加过度拟合的风险,而小树可能无法捕获数据集的所有重要特征。因此,一种在不降低准确性的情况下减小学习树大小的技术称为剪枝。常用的树木修剪技术主要有两种:

成本复杂性修剪减少错误修剪。决策树的优点它很容易理解,因为它遵循人类在现实生活中做出任何决定时遵循的相同过程。它对于解决与决策相关的问题非常有用。它有助于思考问题的所有可能结果。与其他算法相比,数据清理的要求较低。决策树的缺点决策树包含很多层,这使得它变得复杂。它可能存在过度拟合问题,可以使用随机森林算法来解决。对于更多的类标签,决策树的计算复杂度可能会增加。

标签: #二元决策树算法 #决策树分类算法主要包含两部分即