龙空技术网

中南大学:高校数据一体化建设思路

中国教育网 139

前言:

眼前朋友们对“中南大学数据结构与算法”都比较着重,你们都需要知道一些“中南大学数据结构与算法”的相关资讯。那么小编同时在网络上收集了一些对于“中南大学数据结构与算法””的相关文章,希望朋友们能喜欢,朋友们一起来了解一下吧!

中南大学于现有智慧校园建设的机制体制背景下,在信息管理部门难以统一架构、无法推倒重来的约束下,贯彻共享、开放、绿色、创新、协调的理念,通过管理数据、运营数据、智填数据、应用数据、治理数据等路径构建高校数据治理体系,为其他高校数据治理、数据赋能提供新视角和实践参考。

建设背景

“十三五”期间,智慧校园在满足业务管理流程优化、为师生提供信息服务等方面取得了良好成绩,但现有智慧校园建设难以满足高校以数据引领创新、以数据促进改革、以数据推进治理的诉求,总结原因如下:

信息化难以统一架构,数据孤岛难以消除。

虽然近年信息管理部门不断在加强对信息化的统一规划、管理和验收,但开发、实施依然是由业务部门主要负责,于是信息化规划、架构与开发、实施实际是“两张皮”。信息架构要求学校应建立统一数据模型,但信息系统的实施仍然是多种类型多个数据库,因此数据孤岛现象是客观存在的。

信息化建设不均衡,造成数据低质。

信息化建设与业务部门的战略、技术、人才、经费等因素相关,因此部门之间信息化程度不均衡,致使数据质量不高的情况如下:信息系统未实现数据互通,数据更新不及时;业务管理相对简单的部门信息化意识不强,业务管理喜欢采用线下或电子文档,数据不规范;信息系统建设年代久,架构和功能无法满足快速变化的业务诉求,数据不全面;信息系统采购后未根据实际业务需求实施,使用效果不理想,数据与实际业务不一致。

信息化建设协同欠佳,导致数据混杂。

行政有边界,数据无边界。各业务部门的信息系统虽然技术架构和功能相似(如流程引擎、统计分析、填报、查询),但由于管理职能划分、系统承建公司不同、建设进度不同步等原因,难以协同建立数据关联,导致数据一致性差。数据统一抽取到数据仓库后发现其混杂无章,难以直接利用。

数据管理体系缺失,致使数据沉睡。

虽然使用ETL(Extract-Transform-Load)技术汇聚数据到共享库的建设模式为“数据孤岛”之间搭建起一座数据流通的通道并集聚了部分数据,但数据难以被业务人员阅读、理解,致使数据的应用进程受阻,大部分处于沉睡状态。

为解决以上难点和痛点,学校通过多年的调查、研究、实践积累,在信息化“十四五”发展规划中提出数据治理体系的建设方案——数据一体化。数据一体化旨在要求信息化建设在满足业务和服务师生的同时遵循数据共建、共享、共治的原则,实现数据的可见、可得、复用、赋能和好用,达到数据赋能高校智慧决策、精准管理、“双一流”发展的目标。

建设思路与内容

数据一体化实现业务与数据的双驱动,业务实现高质量数字化,数据以服务反哺业务,双方不断循环迭代,让业务更智能、更便捷,让数据更完整、准确、一致。

图 1 数据一体化建设思路

建设思路如图1所示,坚持共享理念,管理数据让数据可得;坚持开放理念,运营数据让数据可见;坚持绿色理念,智填数据让数据复用;坚持创新理念,应用数据让数据赋能;坚持协调理念,治理数据让数据好用。

图 2 数据一体化建设内容

在上述建设思路指导下,结合学校实际情况,形成了如图2所示的具体建设内容,共以下五个方面。

管理数据:数据管理一中心

面对纷繁复杂而又分散割裂的海量数据,应首先统一数据的物理存储,集中所有信息系统的数据库并建立以Hadoop/Spark生态体系为代表的批计算、流计算、在线计算等大数据处理中心;然后基于学校的数据模型将数据汇聚,再按照原始层、标准层、主题层的要求形成数据仓库;最后建立安全防护、备份容灾体系,明确数据管理责任,确保对数据的授权、访问等环节进行严格管理和审计,保障数据安全。

坚持共享理念,在数据仓库基础上建立数据管理平台,数据汇聚后进行统一管理,主要内容如下:

一是以数据资源目录为依据进行数据共享。各部门以信息化项目建设为契机,梳理本部门的数据,然后通过自助方式发布部门共享数据目录,或进一步与数据管理部门共同开展数据治理,形成学校主数据并发布学校标准数据目录。

二是形成互联互通的数据交换网。基于DataX二次开发ETL工具,支撑各系统之间有序进行交换数据,交换必须坚持“一数一源”。

三是进行元数据管理。提供UC矩阵、数据地图、血缘分析、影响分析等功能,来记录数据的来源、加工、使用等,对数据整个链路进行管理与监控。

四是进行主数据管理。在数据治理过程中完成学校主数据的梳理、汇聚、清洗等标准化后形成标准层,并进一步根据业务需求建模后形成主题层。

运营数据:数据服务一门户

为满足旺盛的数据需求,繁荣数据服务生态,应坚持开放理念,遵循互利共赢的原则,鼓励各部门积极参与数据服务供给,建立一个门户提供数据服务的运营功能,为数据生产者、开发者提供数据服务上架、审批、计量等管理功能,为数据消费者提供查找、申请等便捷功能。

数据服务门户提供四类服务:一是数据接口服务,包括物理表推送和API接口。二是在线查询和即席分析服务,在线查询支持灵活配置过滤项、自定义结果的查询服务,在大量数据查询时,通过Redis提供低延迟、高并发服务能力;即席分析可快速进行数据的多维交叉分析和统计,如groupby、sum、avg、count等。三是数据集成服务,将数据应用形成的数据结果页面形成接口,供其他系统调取后集成。四是数据开发工具包,包括报表开发工具、BI、算法开发工具,其中报表开发工具适用于技术人员通过编写SQL代码开发数据明细报表和可视化图表;BI适用于有高质量数据源的前提下,业务人员通过拖拽图形化组件自助进行数据分析;算法开发工具提供专业数据挖掘开发环境和主流算法框架,让技术人员通过代码来构建和训练机器学习模型。

智填数据:数据填报一站式

坚持绿色理念,践行节约、复用、便捷的原则,管理和设计师生填报任务,为数据填报提供一站式信息支持服务。

首先,将数据仓库中的师生数据按照教学、科研、人事等主题分类形成师生个人数据中心,在此基础上坚持“基础信息数据自动获取、业绩数据随时录入且经过审核后多次复用、主观内容自主填报”的原则,创建填报表单,尽量确保师生同一份数据最多填一次。其次,提供问卷调查、线上表格等零代码搭建工具,将师生常用数据字段形成文本、下拉框、复选框、单选按钮、定位、图片、附件等固化组件,允许业务人员通过拖拽组件、配置流程快速生成一张数据填写或确认单,采用扫码、主动推送等便捷形式将填报任务下达到用户,同时能够轻松跟踪填表进度,统计结果实时可查,大幅度减轻数据统计和催报的工作量。最后,学校逐步要求各部门对下发的非固化、临时的填报任务、问卷调查进行统一登记、评估、审批、统计等管理,尽量从源头控制重复、非必要性的填报,整合和简化必要的填报。

应用数据:数据赋能多渠道

坚持创新理念,开展形式多样的数据应用,主要内容如下:

数据可视化。将数据以体系化、可视化的方式形成领导驾驶舱呈现在管理和决策者前面,为其决策和管理提供数据参考,从而间接实现对业务的管理。

数据融合应用。根据学生入学到毕业、教职工入职到离退、科研项目从立项到结项等业务管理脉络实现跨业务、跨部门的数据融合形成数据报告、个人画像等。

数据自助分析。当数据质量基本达标,数据意识初步具备,积极性基本调动,可赋能业务部门进行数据自主创新,形成各类数据明细报表和图表。

数据挖掘。选择创新意识强的业务部门,利用最新大数据技术进行各种数据模型的构建以及加工计算,使用算法开发工具从杂乱无章、看起来毫无关联的数据中发现潜在的特征关系形成新的数据结果。

总之,数据应用是强业务驱动,必须由业务部门与信息部门通力合作,在创新中不断积累,才能为管理、决策和预测赋能,并在此过程中发现数据问题、找出业务短板、推动业务重构、完善信息系统,在反复迭代中使数据质量更高、应用更丰富。

治理数据:数据价值总保障

为保障数据质量,发挥数据价值,学校坚持协调理念,牢固树立数据一盘棋思想,通过建立数据建设机制体制、规范信息系统建设、进行数据标准化、加强数据质量管理的措施进行数据治理,主要内容如下:

加强信息化顶层设计、规范信息化项目建设。

以学生、教职工、教学、科研、资产、财务等业务域为单位,以学生入学到毕业、科研项目全周期管理、教职工从入职到离退等业务流程为脉络,逐步建设和完善信息系统,全面实现业务数字化。

信息系统建设在满足事务处理要求的同时必须规范数据生产、重视分析应用,为教育事业综合统计调查、普通高等学校本科教学工作水平评估、“双一流”建设监测指标体系等管理和决策目标提供完整、准确、及时的数据源。

信息系统申请立项环节,业务部门必须梳理业务及业务的数字化情况,形成本部门信息化建设计划和数据共享清单,信息管理部门以此为立项依据确定实施策略,优先解决业务系统的有无问题,要求负责生产和管理主数据的部门尽快建设,对现有系统进行完善或更新或再造。

为确保新的信息化项目建设达到数据一体化目标,在项目验收中设置数据检查环节,检查内容包括数据标准、报表集成、数据接口规范性、数据资源目录形成、数据共享交换情况、数据质量报告、数据库设计等。

形成数据标准,推进数据标准化。

在形成学校主数据过程中将大量复杂的原始数据进行抽象和提炼,明确每个主数据业务指标的含义、命名、计算方法、管理部门等,确保指标的全局一致性,最终形成能够反映整个学校业务运转情况的数据指标体系。参考国家、教育行业标准,通过业务和技术人员不断协商形成学校数据标准,并每年定期更新、发布和公示。依据学校数据标准,在信息系统建设和应用数据的过程中推进数据标准化。

加强质量评估和质量追溯,形成质量管理闭环。

建立数据质量评估标准,根据学校数据标准和常规质量校验逻辑,形成数据质量的知识库。利用数据质量工具,依托质量知识库,可对信息系统进行质量检查,生成数据质量评分报告和数据问题明细报告。利用数据血缘分析和影响性分析形成数据质量追溯流程,注重问题分析、解决、跟踪、持续优化、知识积累,形成数据质量持续提升的闭环。

建设实践与经验

2020年学校启动数据一体化建设行动计划,当年完成建设内容如下:

组织体系建设,形成数据决策、管理、生产、开发、消费的组织结构,成立由组织结构中部门负责人及数据管理员、承建公司项目经理及数据技术人员组成的数据团队。

制度规范建设,修订信息化项目建设管理办法,阐明信息系统建设中的数据要求,出台数据管理办法和技术规范,确定数据组织体系及各角色的权利与义务、数据生命周期中的管理和技术要求。

数据基础设施建设,建设支持Oracle和MySQL数据库类型的双活数据集群,实现关键数据在本部校区及新校区双份数据实时读写,确保任意一个中心发生故障,业务也不会中断。建设Redis和MongoDB数据库,解决非结构化数据的海量存储和访问困境。

数据管理平台建设,完成平台功能开发及上线运行,截至2023年4月已汇聚64个系统的数据,采集原始表245张,发布数据资源目录195个,形成主题层数据表66张,累计数据交换量约320亿。

2021年学校建成了数据服务门户后各部门逐步上架数据服务,截至2023年4月已发布数据接口125个,提供审批通过的物理表数据推送服务425项,提供审批通过的API接口服务12项,提供在线查询服务30余项,即席分析10余项。采购BI、报表设计器,赋能业务部门使用工具开发数据页面20余张。以信息化项目建设验收为抓手,协调各方共同进行数据治理,建立了数据标准体系,截至2023年4月已发布业务数据指标106个,数据项1717个,代码164个。

2022年,学校的重点工作是探索多种形式的数据应用,截至2023年4月完成人事队伍现状及近五年变化、年度招生情况及志愿填报热度分析等26个领导驾驶舱;选取文史、理工、医学三个学科中各一个学院进行试点,建设个人数据中心;尝试与学工部联合建设学生画像,在学生成绩分析、贫困生判定、校园卡应用分析等方面进行数据挖掘。

经过三年多实践,总结建设经验如下:

一是筑牢根基做好数据管理。

数据管理中心建设是一个投入多、技术难度较大、周期长的基础工作,特别是数据仓库中标准层和主题层数据模型的构建、数据资源的形成,是一个反复协商和迭代的数据治理过程。同时信息系统建设如火如荼,急切需要高质量高效的数据服务。为了让数据管理中心的建设按照高质量要求推进,不被信息系统的数据需求牵着鼻子走,信息系统可将数据共享至原始库进行数据交换,待标准层和主题层相应的学校标准数据资源形成后再切换。

二是开拓创新打造数据应用。

数据应用需定制开发,数据验证工作量占比高,存在一定的失败率。因此为尽量降低失败率,在实施之前需根据业务部门参与意愿、数据集成情况、数据质量报告等因素评估可行性。另外,由于数据供给和业务需求本身就是没有尽头的,数据赋能业务也是慢慢找到焦点、逐渐落地、形成方法论的过程。由此可见,数据应用是一个开拓创新、持续调优和迭代的过程,需在创新中总结经验逐步深入,并不断加深与业务部门的合作默契。

三是循序渐进推进数据治理。

数据治理非一朝一夕之功,而是持续推进、反复协商的渐进过程。首先,建立长效协商机制,数据建设过程中如遇到问题,由数据管理部门主动组织协商,多轮协商无果后呈学校信息化会议商榷。其次,形成数据标准和进行数据标准化不是一个项目就能完成,而是伴随信息系统建设,分主题域、分阶段持续推进。学校数据标准定期发布后并不要求信息系统马上遵循而是借系统改造、重新上线、数据对接等机会进行数据标准化并收集意见优化数据标准。最后,在质量管理中对未来、当前、历史数据中出现的质量问题进行必要取舍,采取不同处理策略,先确保新生产数据的质量,聚焦正在使用的主数据质量,后续再加强历史数据的修正。

基金项目:湖南省普通高等学校教学改革研究项目(HNJG-2022-0474)

来源:《中国教育网络》2023年7月刊

作者:喻姣、袁新辉、王鹰(中南大学信息与网络中心)

责编:陈荣

投稿或合作,请联系:eduinfo@cernet.com

标签: #中南大学数据结构与算法