龙空技术网

【案例】农信银耿仕林:数据脱敏系统项目分享

金科创新社 71

前言:

眼前小伙伴们对“oracle姓名脱敏”大体比较讲究,姐妹们都需要了解一些“oracle姓名脱敏”的相关资讯。那么小编在网上网罗了一些关于“oracle姓名脱敏””的相关知识,希望我们能喜欢,姐妹们快快来了解一下吧!

者:农信银资金清算中心 创新研发部主管 耿仕林

来源:2018农村金融科技创新与共享发展会议

为建立农村金融领域科技成果与资源共享机制,发挥科技整体合力、开展联合创新的初衷,11月29日-30日,由农信银资金清算中心主办、金科创新社承办的“2018农村金融科技创新与共享发展会议”在湖北武汉召开,会议以“开放 共享 共赢”为主题,来自全国33家农信成员机构的领导及科技人员出席此次交流分享会议。

农信银资金清算中心创新研发部主管耿仕林出席了本次会议,并分享了农信银中心基于大数据技术的数据脱敏系统实践案例。

以下内容摘自耿仕林演讲实录:

银行业数据脱敏需求

关于信息保护的国家法律

提到数据脱敏,首先要讲数据安全和信息保护,因为数据脱敏是实现数据安全和信息保护的重要手段,个人信息和隐私数据保护已经被《网络安全法》明确。第40条要求收集的用户信息必须进行严格的保密;第45条要求不得泄露,不得出售;第48条要求禁止发布和传输。

监管机构政策要求

《银行业“十二五”科技发展规划》明确指出用于测试的生产数据要进行数据脱敏,同时,《银保监会信息科技风险现场检查指南》要求测试中如需使用生产数据,应对相应数据进行脱敏、变形处理。

数据脱敏的定义

数据脱敏就是按照一定的规则,把数据进行变形、截断,实现敏感信息的可靠保护。在银行生产系统中有类似身份证号、姓名、联系方式、银行账号等信息,通过这些信息可以精确定位到自然人个体,这些具有明确指向性的信息就是敏感信息。数据脱敏就是按照制定的身份证号、联系方式等脱敏规则,把真实的数据进行变形、截断、替换,使其失去原来的模样,实现这个系统就是数据脱敏系统。

银行对数据脱敏的要求

综上,网络安全法和监管机构的要求,大家会发现只要数据离开生产环境,就必须进行脱敏。那为什么要用生产的数据呢?其中很大一方面是因为要做系统测试,能自己造数据吗?能,但是可能会出现数据造得不全面,不能覆盖所有的交易场景。数据脱敏在农信银的另外一个应用场景就是构建大数据分析和挖掘的环境。

银行业数据脱敏解决方案

数据脱敏就是用星号进行替换,看起来非常简单,实际上不全是,下面看一下数据脱敏的解决方案。

数据脱敏流程及功能

先来看一下数据脱敏流程,它的一般流程包括敏感信息的发现、数据的抽取、脱敏处理和数据的装载。

1. 敏感信息的发现是对源数据和采样数据进行分析,自动发现其中的敏感信息,以及数据之间的关联关系。

2. 数据的抽取就是从源头数据库采集数据。

3. 数据的脱敏就是对采集到的数据进行变形的过程,是整个系统的加工处理过程。

4. 数据的装载,数据脱敏系统可以直接把脱敏后的数据写入到目标数据库,但是银行的生产环境跟开发测试环境一般是网络隔离的,所以一般在生产环境中生成数据文件,在测试开发环境中加载数据文件。

数据脱敏系统的定位

关于数据脱敏系统的定位,它就是大家使用生产数据的安全卫兵,通过技术工具融合、简单有效的管理流程,构建敏感信息与隐私数据安全使用和保护的防护体系。根据这个定位设计勾画出了数据脱敏系统的基本结构:身份认证及授权管理子系统(这是数据安全的基本保障)、数据提取子系统(负责提供原材料)、信息配置子系统和脱敏策略配置子系统(确定加工工艺),基于Spark大数据的脱敏处理子系统(加工成产品)、审计子系统(对加工进行监督)。

数据脱敏系统基本要求

首先是要支持敏感信息的自动发现,通过这个功能,一则可以提高工作效率,不用手工匹配;更重要的是通过这个功能,能防范人为的疏漏。

其次要保持业务的关联性,之所以用生产数据做测试,是因为数据之间存在着复杂的关联关系,人为去造可能造不全面,会出现遗漏,甚至出现错误。举一个简单的例子,客户数据由客户的基本信息表和交易明细表构成,这两个表是存在外界关联关系的,在脱敏的时候把客户基本信息表信息由1234改为4321,交易明细数据也要进行相应的修改,当然实际生产环境尤其是银行的核心,要比这个例子复杂得很多,可以说没有保持业务关联的数据脱敏对系统测试没有意义,没有价值。

第三,数据脱敏要支持多种规则,系统要内置行业内常见规则,不需要管理员手工去配置就可以支持常见的一些数据格式诸如身份证、手机号、邮件、地址、卡号等等。

第四,在一家企业,尤其是金融机构不可能是一种数据库,所以数据脱敏要支持主流常见的数据库如Oracle、Mysql、Sql Server、DB2等等,还要支持这些数据库的源数据和目标库混合交叉使用,这叫支持异构。

第五,在数据分析和挖掘场景,保持数据的统计特征是非常重要,比如我们要根据用户的年龄段来分析他使用手机银行的一个用户行为,如果从生产中拿数据的时候就要保证身份号的第7位到第10位,其他的位数进行变形,这就要求脱敏系统支持自定义,灵活可配置。

第六,虽然数据库的数据价值密度比较高,但数据库的数据不是全部,尤其对于大数据分析非结构化的数据也非常重要,因此还必须支持一些本地文本文件比如常见的Text、Excel、Word、XML、Csv文档的脱敏。

第七,对于数据脱敏系统,灵活可扩展是不可缺少的,通过增加服务器节点数可以提高系统的吞吐能力,提高性能。

最后,系统要稳定运行,必须做好系统的监控,对脱敏的全过程,每一个环节都进行追踪,记录,一旦有问题,马上报警,能精的定位到故障点。

农信银数据脱敏应用实践

下面介绍一下农信银中心数据脱敏系统的应用情况。

初步考虑和要求

根据前期调研,农信银中心初步拟定这几方面需求:

首要排在第一的就是变形处理过的脱敏数据不能被逆推回来,否则没有意义。

其次,因为大数据分析要构建数仓,所以需要支持对数仓海量数据的高效脱敏。

第三,溯源追踪,要给数据打水印,因为一旦这份数据传布出去,要能知道是从哪个途径传播出去,以此可以防范甚至做到控制数据泄露。

第四,要支持大数据平台,充分利用现有资源,减少成本投入。

最后,加密保护,需要对脱敏前后数据进行加密保护,脱敏后的数据虽然失去敏感性,但是数据还有价值,尤其对数据分析价值还很大,所以说加密保护也是必要的。

系统架构图

这是农信银数据脱敏系统的架构,农信银脱敏系统是部署在大数据平台上,就是复用已有资源,没有增加任何硬件投入。

农信银中心数据脱敏系统特点介绍

数据脱敏技术分为静态脱敏和动态脱敏,农信银中心采用基于大数据技术融合静态脱敏和动态脱敏,为系统测试和大数据分析提供大量的静态数据,同时通过API这种方式向外包网页、手机APP提供动态的数据脱敏支持。

其次在构建数据脱敏系统的同时,制定发布了数据脱敏操作规范,制度先行,工具跟上。在数据脱敏操作规范中,明确了数据的使用人,数据的所有者,数据的管理者以及他们各自的权利、责任和义务,规范了数据的申请、审批、脱敏处理以及下载。比如刚才提到的农信银开发环境和生产环境是相互隔离的,不能直接从数据库拿到开放测试库,所以中间需要数据落地,然后进行数据下载,传递,传输。少量的文件是通过网络拉下来,对于像上T或者10几T的数据量的大量文件用于数据分析就是通过传的方式,或者以备份磁带,磁盘介质进行传递。另外,刚才提到脱敏后的数据存在一定的价值,因此对其中脱敏后的数据消毁也要进行规范。

概括起来农信银数据脱敏有这么几个特点:第一采用了大数据分布式内存计算,处理效率高;第二采用分布式架构,与hadoop无缝对接,易于横向扩展;第三支持脱敏溯源,能控制数据传播;第四支持多种数据库及异构数据库脱敏;第五支持多种数据脱敏算法;第六支持数据容错机制。

以上内容由刘帧宇编辑整理。

标签: #oracle姓名脱敏