前言:
而今各位老铁们对“决策树分类matlab”都比较着重,你们都需要学习一些“决策树分类matlab”的相关资讯。那么小编在网络上网罗了一些对于“决策树分类matlab””的相关资讯,希望大家能喜欢,看官们一起来了解一下吧!针对农业物联网信息应用层及数据处理部分进行研究,通过对数据进行处理、挖掘、融合和应用来制定 科学的管理决策,实现对农业生产过程的控制。通过在南宁市灌溉实验站火龙果实验田安装农田物联网系统,长期 对实验田空气温湿度,CO2 浓度,光照强度,土壤水分,土壤温度进行实时监测。首先对试验田获取的数据进行清洗, 然后根据火龙果生长环境需求,将每组环境数据进行类别标记,分为“适宜”和“不适宜”两种类别,最后通过决策树方 法对数据进行自动分类,并采用正确率评价模型性能。实验结果表明,决策树分类模型测试集的正确率为 99.04%,验 证集的正确率为 100%。表明决策树在数据分类方面具有很好的效果。
物联网概念于 1999 年由美国麻省理工学院提出,之后物联网技术得到了迅速的发展,在工业,医疗,安全工程上得到了广泛的应用,农业物联网是物联网应用的重要发展方向之 一,将物联网技术应用在农业领域将为农业的发展带来了不可估量的推动力和无可限量的前景。在农业的生成过程产生 的数据具有数量巨大、结构复杂、类型繁多、价值密度低、产生速度快的特点。所以在对生产过程中的大量数据分析是非常必要的。
在国外,韩国、以色列通过建设农业物联网科技创新服务 体系,大大促进了农业物联网技术的研发、推广和应用,Yunseop 等通过无线传感器网络、差分全球定位等技术设计了一 种可远程监测农田现场数据并可实时控制的精密变量灌溉系 统,同时定点监测6个农场的田间土壤参数,并以无线方式发 送到基站以进行科学决策和精确控制。国内,夏于等设计了 一种基于物联网的小麦苗情远程诊断管理系统,通过对远程监 控节点动态数据的采集计算并进一步对小麦的生理生态特性、 作物气象灾害等指标分析融合,对小麦生长生产过程和主要气象灾害进行精确监测、快速准确诊断,提供综合分析结果和生 产管理调优方案。吴秋明等设计了一种为棉花灌溉决策与 管理提供支持的基于物联网的棉花智能化微灌系统,并在新疆库尔勒棉花智能化膜下滴灌示范区的实际应用中取得了良好 效果。张帆等针对江西丘陵地区作物种植分布广、布线和供 电困难等特点,利用智能气象站和高精度土壤温湿度传感器等设备建立了基于物联网技术的土壤墒情监测系统,为农田精准 灌溉和节水、农业抗旱减灾提供技术支持和决策参考。
虽然在国内外对农业物联网的大数据分析都取得不错了 的进展,但是在农业物联网发展的过程中如何对生产过程中采 集到的大量数据进行处理、分析和显示,使其更好地为农业服 务仍然是急需解决的关键问题。本文通过在南宁市灌溉实验 站火龙果实验田安装农田物联网系统,长期对实验田空气温湿 度,CO2 浓度,光照强度,土壤水分,土壤温度,以及影像进行监 测,对采集到的环境数据采用决策树分类的方法进行数据挖掘 分析,并结合当地气象数据,为火龙果的种植管理提供科学依据。
1 材料及方法
1.1 农田物联网系统的搭建
物联网系统主要由数据采集模块、数据传输模块、上位机 远程监控模块三部分组成,框架如图 1 所示。数据采集模块主 要包含多个传感器构成的无线传感器网络模块,影像采集模块 和电源模块,无线传感器模块主要是用来获取火龙果实验田实 时环境数据,影像采集模块主要用来拍摄火龙果实验田的实时 环境情况。之后通过数据传输模块中 ZigBee 无线网络技术和 3G 网卡分别将环境数据和图片传输到上位机中,最后通过上 位机监控平台实时查看从火龙果实验田返回的环境数据和影 像图片。
1.1.1 数据采集模块
无线传感器模块主要选用了DS18B20 土壤温度传感器, MS-10 土壤水分传感器SHT10_SHT11数字温湿度传感器, MH-Z14CO2 浓度传感器以及 BH1750 光照度传感器,用来监测火龙果实验田的空气温湿度,CO2 浓度,光照强度,土壤水分,土壤温度。工业相机选用的是深圳市浩鑫网景网络技术有限 公司生产的 NV201E 工业摄像机。 电源模块采用光伏供电,选用15W最大输出电压18.5 V最大输出电流1.08A太阳能电池板,选用12V12AH 胶体免维 护蓄电池可长期在户外使用,连续阴雨天也可以保证持续供电,采用的太阳能控制器是30A PWM Solar Panel Charge Controller,主要用来调节功率,提供电路保护功能防止反接、短路及过流。
1.1.2 数据传输模块
选用 CC2530 芯片作为传感器节点,因为火龙果实验田传 输的环境数据不大,利用 ZigBee 这种通信数据量不大、低数据 传输率、低成本、低功耗而且具有安全可靠性的这种无线通信 技术,作为该无线传感器网络的组网通信方式最为合适的,而 CC2530 支持最新的 ZigBee 协议———ZigBee 2007 /PRO,ZigBee 2007 /PRO 相对于以前的协议栈具有更好的互操作性、节点密 度管理、数据负荷管理、频率捷变等方面有重大进步,且具有支 持网状网络和低功耗特点。使得运用 CC2530 设计出来的节点 通信距离更远,组网性能更稳定可靠。作为与上位机之间通信 的模块选用的是 GPRS 和 3G 网卡。在火龙果实验田总共安装 了5个传感器节点,节点位置如图 2 所示。
1.1.3 上位机远程监控模块
本系统采用了服务器端分布式中间件,主要功能是衔接上位机客户端( 含手机监控软件、PC 监控软件、Web 监测系统 等) 与下位机实现数据的上下行通信,以及数据格式解析、存 储,可部署在云端任意计算机; 下位机硬件系统是 TCP /IP 协议 中的客户端,中间件计算端是服务器端。云端 Web 系统,采用 Web Service 与中间件实现通信,采用 XML 技术与其他平台交 换数据与存储数据,并以网页的方式将数据数字化、图表化呈 现,可部署在云端任意计算机。数据查询界面如图 3 所示。
1.2 气象数据获取
气象数据来自中国气象科学数据共享服务平台提供的API 接口,访问 API 接口获得返回的 Json 数据,通过 JAVA 语 言解析 Json 数据获得实时的南宁气象数据,将解析的气象数据 提取研究需要的温度、降雨量、气压、湿度等部分,通过 Tomcat 发布到服务器上,用于历史和实时数据查询,查询界面如图 4所示。
1.3 采集数据的处理与分析
1.3.1 数据预处理
研究数据为 2017 年 5 月 25 日到 6 月 16 日火龙果实验田安装的 5 个传感器节点( 节点 1 ~ 5) 获取的空气温度、空气湿 度、CO2 浓度、光照强度、土壤水分、土壤温度 6 种数据。各节点每隔 10 min采集一次数据。 从传感器采集的原始数据包含大量的冗余、错误、缺失的 数据,因此需要对原始数据进行清洗,也就是数据的预处理,主要包括缺失值和噪声的处理。
针对缺失值的处理方法主要包括删除法和插补法。通过 分析本实验数据发现获取的传感器节点数据缺失率较低且数 据量巨大,因此采用删除法对原始数据进行处理,处理速度快 同时也能够很好的保证样本数据的统计功效。 针对数据噪声常用的处理方法有回归法、均值平滑法、离群点分析及小波去噪等。由于研究选取的样本数据具有连续 性的特点,采用差值法对原始数据进行去噪处理,通过计算连 续监测到的环境数据之间差值的绝对值大小,比较是否超出了 正常数据的振荡幅度,如果超出了就可以判定在这两个连续获 取的数据之间存在一个异常点,分别将这两个数据和相邻的数 据再做一次差值,如果又出现差值绝对值大小超过正常数据的 振荡幅度,就可以断定这个数据是异常数据点,直接剔除异常数据。
1.3.2 基于决策树的数据挖掘分析
面对从火龙果实验田获取的大量环境数据,需要对这些环 境数据进行挖掘分析,提取出对管理者有用的数据和结论。决 策树在数据挖掘分析中能够很好地处理类别型或连续型变量的分类预测,决策树通过不断的划分数据,是依赖变量的差别 最大,最终目的是将数据分类到不同的组织或者分支中去。
决策树运行流程图如图 5 所示,将训练样本的原始数据放 入决策树的树根,原始数据分成两组,一组做训练组数据一组 做测试组数据,用训练组的数据建立决策树,在每一个内部节 点采用信息论的方法来作为分割的依据,使用测试组的数据来 对决策树进行修剪。通过不断的循环分组,分割,修剪,直到内 部的节点全为树叶节点,这时候决策树完成了分类,可将每个 分支的树叶节点萃取出知识规律。、
为了评价决策树分类模型的可靠性,采用混淆矩阵( 如表 1 所示) 对分类结果进行评估,并采用正确率( Accuracy) 、精度 ( Precision) 作为分类模型的评价指标。
TP( True Positive) : 指模型预测为正( 1) 的,并且实际上也 的确是正( 1) 的观察对象的数量。TN( True Negative) : 指模型 预测为负的,并且实际上也的确是负的观察对象的数量。FP ( False Positive) : 指模型预测为正的,并且实际上也的确是负的 观察对象的数量。FN( False Negative) : 指模型预测为负的,并 且实际上也的确是正的观察对象的数量。
正确率是指模型能正确预测、识别1和0的对象数量与预 测对象总值的对比,精度是指模型正确识别为正( 1) 的对象占 模型识别为正( 1) 的观察对象总数的比值。这两个指标可以很 好的反映分类模型的性能和预测能力。二者的计算放入如式 ( 1) 与式( 2) 所示。
2 结果与讨论
以 6 月 3 日的光照度数据为例,图 6 显示了采用差值法预处理前后的数据比较结果。由于本次采用的光照度传感器的 量程仅为 1~ 65 535 lux,在中午太阳最强的时刻出现饱和。但 火龙果是阳性植物,其光饱和点在 20 000 ~ 25 000 lux 左右,因 此数据出现饱和不会明显影响对火龙果生长环境的评价。从 图 6( b) 可以看出,预处理后的光照度曲线减少了大量毛刺,更 加平滑。
火龙果植株根浅,但吸收能力强,如果土壤中含水量过大, 会使火龙果吸收水分过多导致果裂,如果长时间田间积水会导 致火龙果根部腐烂,对火龙果的正常生长产生影响。如图7所示,火龙果实验田 6 月 6-10 日土壤容积含水量变化图,可以明 显的看出,在 6 日下午的 2 点 20 分土壤容积含水量升高,并且 在接下来几日,其容积含水量一直保持在 35% ~ 38%的水平,可 能存在积水的现象。
根据实验田的图像监控系统拍摄的图片 ( 图 8) ,可以看出该时期火龙果实验田的确出现积水现象,且 根据气象数据查询平台查询的气象数据得知,后续几日的确处 于连续降雨的天气。由于本实验田为水田改造而来,排水设施 不到位,长时间的降雨使得火龙果实验田的积水无法通过地面 径流及时排除,所以需要及时对火龙果实验田进行人工排水, 以保证实验田的环境适合火龙果的生长。
火龙果的生长受多方面环境因素的影响。已知火龙果生 长最适宜的空气温度为 25~ 35 ℃,在高于 38 ℃ 时火龙果停止生长,高于 40 ℃会对火龙果树产生损害; 最适宜的空气湿度为 60% ~ 70%; 由于火龙果是阳生植物,光 饱 和 点 在 20 000 ~ 25 000 lux,白天光照大于 8 000 lux 为最佳,低于 2 000 lux 时对 火龙果的生长会产生影响。只对单一环境数据进行统计分析, 不能完全满足管理者的需求。因此,本研究将空气温度、空气 湿度、光照强度这 3 个因素合并为一个整体,作为一个样本来 进行综合分析。首先对训练样本进行标记,样本中任何一个因 素超出火龙果生长适宜范围时将其标记为“不适宜”,反之标记 为“适宜”。然后采用决策树分类的方法,将标记好的样本数据 作为决策树的原始数据,将原始数据分为训练集和测试集。实 验首先选取 6 月 3-5 日传感器节点获取的 419 条样本数据进 行标记,并作为决策树分类模型的输入。决策树分类方法在 MATLAB 中实现,其中随机选取 50%作为训练样本,50%作为 测试样本。测试集的正确率如表 2 所示。
由上文提供的计算公式可得,模型的测试集正确率为 0.990 4,精度为 0.993 9。为了更好地验证决策树分类模型的 可靠性,实验还进一步选取了 6 月 7-10 日的 358 条传感器节 点数据,对该决策树模型进行了验证,验证结果的正确率为100%。实验结果显示,决策树模型对火龙果实验田环境适宜 或者不适宜的预测具有很高的正确率和精度,管理者可以通过 决策树分类模型的预测结果实现对火龙果实验田环境变化的 预警,以更好的管理火龙果的生长,为火龙果的生长提供最适 宜的生长条件。
3 结 语
通过在南宁灌溉实验站搭建农田物联网系统,对火龙果实 验田的空气温湿度、CO2 浓度、光照强度、土壤水分、土壤温度 等参数进行了监测采集。对获取的大量原始数据进行数据清 洗,将清洗后的数据采用图表化呈现,能够有效地反映火龙果 实验田的生长环境变化,通过观察火龙果生长环境的变化,能 够发现火龙果的生长环境是否发生异常变化。由于单一数据 的观察分析不能完全满足管理者的需求,实验采用决策树方法 对数据集进行“适宜生长”与“不适宜生长”的分类。选用 6 月 3-5 日传感器节点的 419 原始数据进行了决策树分类模型的 建模及测试,测试集的正确率为 0.990 4,精度为 0.993 9,并采 用 6 月 7-10 日的 358 条传感器节点数据,对该决策树模型进 行了验证,验证结果的准确率高达 100%。可以得出,决策树分 类模型具有可行性,能够很好地为作物生长环境变化提供科学 的指导意见。
作者:赵立安、李修华、周永华、马绍对、黄忠华、罗维钢
来源:节水灌溉 · 2018 年第 3 期
欢迎大家在评论区交流分享
更多精彩资讯,请持续关注数字农业分会官方账号!
标签: #决策树分类matlab