龙空技术网

擎创科技:擎创金融一体化智能根因定位解决方案

金科创新社 62

前言:

眼前各位老铁们对“netcool8000”大体比较着重,小伙伴们都需要剖析一些“netcool8000”的相关资讯。那么小编在网上网罗了一些对于“netcool8000””的相关知识,希望各位老铁们能喜欢,大家快快来了解一下吧!

来源:“鑫智奖”第五届金融数据智能优秀解决方案评选

获奖单位:擎创科技

荣获奖项:专家推荐TOP10优秀解决方案、运维创新优秀解决方案

一、解决方案简介

本方案主要通过对业务、中间件、数据库、日志以及性能指标等在内的多维数据,进行统一收集、查询、分析。在流引擎中配置告警规则,通过实时状态来监控系统的健康状况,有效提高告警规则的时效性,有效减少故障的排障时间。充分利用不同运维数据间关联信息,当发生运维故障时,能够以告警为切入点,关联不同的运维数据,直观展示故障发生时刻不同运维数据的健康状况,快速定位故障根因。使用智能基线算法替代传统的静态阈值,根据历史监控数据动态调整不同时刻的告警阈值,能够有效减少无效告警,提升告警质量。

方案的整体架构是根据其要求的功能性要求以及非功能性要求进行设计。平台共分为:数据采集,数据处理,数据存储,查询引擎,告警引擎,智能分析引擎,展现引擎以及平台管理

共计8个模块组成,各功能模块规划如下:

8大模块都可支持横向扩展,提升每个模块的吞吐量以及处理能力,同时每个模块内部都是多点分布式部署,保证了系统高可用以及数据安全。

物理架构:平台在物理部署时充分考虑了架构的先进性,避免了重复建设以保护客户的已有投资,平台中需要的Hadoop、ElasticSearch、Kafka以及ZK集群都支持用户版本需求,其他节点均支持分布式部署,可以非常容易的调整节点数量,为后期平台的自动智能扩容提供了基础,整体物理架构如下:

二、应用场景痛点简介

随着银行业务快速发展,运维人员面对的是日益复杂的系统架构以及海量的IT运维数据。数据中心运维管理难度和重要性日渐凸显,对业务连续性要求和运维服务质量的要求也不断提高,迫切需要建设一套科学、高效的、无监督运维支持体系,能够帮助行方运维能力不断提升,发掘运维潜在风险。

当前,运维大数据系统已经采集了来自主机、数据库、中间件、业务应用等维度的海量指标数据,通过智能运维系统的算法引擎来实现对各类指标数据的动态检测和容量预测,并能够在业务的视角上进行组织和展现,是本次项目的核心目标。

数据集中管理:从大数据平台接口收集包括但不限于CPU使用率、内存使用率、文件系统使用率、交易量等指标数据,数据来源包括Tivoli、BPC、Oracle EM、Netcool、CMDB等系统、对采集的指标及配置数据进行统一分析和管理。

智能分析引擎:利用智能化算法实现实时指标异常检测,指标趋势预测等智能化场景。

三、解决方案亮点介绍

本解决方案搭配相应硬件升级,部署的产品包括日志精析中心,指标解析中心和数字中台。通过智能化检测算法能够帮助运维人员更快速的发现异常,更有效的诊断问题根因,更便捷进行运营分析和决策。

1.实现功能点

1)基线算法:检测当前的指标数据是否符合历史轨迹;

2)ripple算法:检测当前的指标数据是否有突增(波动检测)(主机、中间件、业务、数据库、网络指标);

3)多指标算法:从业务维度选取多个关联指标进行综合分析,通过对各个指标的偏离度进行计算,确认业务是否异常,并按照偏离度排名进行根因推荐。(业务、主机、中间件指标,数据库与网络指标暂不包含);

4)预测算法:根据历史数据,预测未来容量使用情况,提供剩余使用时间或建议扩容时间。(表空间、文件系统);

5)智能运维中心:提供总览——单个系统——指标的全局关联展示与状态标志。根据实际需求,选择时间、指标等,查看当时的数据、单/多指标检测结果等信息。

6)告警管理:支持将检测到的异常结果形成告警,并发送至我行统一监控平台,可配置。

7)接口开放:支持接口开放,可以由我行其他平台读取算法运行后的模型、结果等数据。

8)数据分析中心:实现数据采集、解析、聚合、存储、查询等功能,可配置。

9)AI实验室:集成多种人工智能算法,实现场景的构建、训练和结果展示及应用,可配置(如数据聚合、算法选择、算法调参等)。

2.创新点

趋势预测算法:平台内置预测算法,通过分析历史数据,可判断未来一段时间的KPI趋势,如预测未来一段时间数据库表空间的使用量,服务器磁盘的剩余空间预测等。

可在平台的图形化页面中方便的配置算法参数,如预测的天数,数据的处理形式。

预测的结果可以通过报告的形式给出,方便用户的查看与决策。

单指标异常检测算法(基线/Ripple算法);平台内置异常检测算法,针对不同的数据,如业务类指标数据、基础架构类指标数据平台提供不同的异常检测算法来适应不同的数据特征。通过历史数据的特征学习,可以提前对可能出现的异常进行检测和预警。

可在平台的图形化界面中配置算法参数,如上下基线的检测,算法的选择。

异常检测的结果通过不同的标签进行显示,如周期性异常、突增突降异常、持续性异常。

多指标异常检测算法:平台内置多指标异常检测算法,基于深度学习技术实现多指标异常检测以及指标根因定位,用于实现快速发现系统故障及快速定位问题根因的故障诊断。该算法可应用于多个指标的同时检测,如系统的多个性能指标, CPU,磁盘IO,内存的同时检测。也适用于数据库中的多指标检测,如:PGA,SGA,缓冲池IO响应时间,内存排序率等。

3.方案成效

复杂多维分析:将各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如主机指标、数据库指标、中间件指标、网络设备指标)进行多维度、多角度深入分析及可视化展现。

快速排障:通过运维数据可视化(业务视角、复杂多维报表)及精细化告警信息,结合多种智能化算法,包括指标异常检测,指标趋势预测,实现精准告警、多维分析等功能,在故障发生时即推荐运维人员问题原因,方便迅速排障。

1)提供多种智能化算法,将有助于运维人员更早地收到更有效的告警(相较与静态阈值);

2)提供容量管理的手段,便于提前制定容量计划,以及发现容量风险点。

3)提供全局多维度视图,在故障处理场景下可以查看告警指标出现问题时的开始时间与当前趋势,以及其他相关联的指标或系统的情况;在定期巡检、风险排查或事后分析等场景下,针对性地告知运维人员运行状态、是否存在异常以及推荐影响程度较高的指标。

4)数据采集、解析,算法训练、调整等均可前台配置,便于后续应用场景的扩展。

四、金融行业客户名单

宁波银行、重庆银行、温州银行等。

五、客户评价

该项目有效地解决了运维人员面临的运维数据分散、排障耗时耗力、分析手段复杂和数据增长迅速四大挑战。通过高效实时多维度采集能力,目前聚合了每日XG以上的数据量,并融合汇聚了现有的各种系统的运维指标数据。根据平台提供的扩展智能算法能力和接口、场景化的支持和算法引擎,逐步实现了主动管理、智能预测、高校精准的根因定位及故障排除效率,进一步提升了我行数据中心的运维管理水平。

更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社案例库、选型库查看。

标签: #netcool8000