龙空技术网

基于区块链的可信联邦学习架构

DataFunTalk 1561

前言:

此时兄弟们对“语音生成模型联邦训练”都比较关心,姐妹们都需要学习一些“语音生成模型联邦训练”的相关知识。那么小编在网上汇集了一些对于“语音生成模型联邦训练””的相关知识,希望兄弟们能喜欢,姐妹们快快来学习一下吧!

导读:本文将介绍基于区块链的可信联邦学习架构,主要包括以下几部分内容:

隐私计算概述区块链+隐私计算研究工作进展未来发展分析

分享嘉宾|陈川 中山大学 计算机学院副教授

编辑整理|任航琦 山东大学

出品平台|DataFunSummit

01

隐私计算概述

1. 隐私计算的法律与合规

目前,《中华人民共和国密码法》、《中华人民共和国网络安全法》、《信息安全技术个人信息安全规范》等一系列法律法规的正式生效,规范了信息安全和隐私保护的具体要求,隐私保护的重要性和迫切性不言而喻。

国外也出台了一系列相关法规,如欧盟史上最严格的隐私保护法案《通用数据保护法案》(GDPR)、美国的《加州消费者隐私法案》(CCPA)、新加坡的《个人资料保护法令》(PDPA)等。

被称为史上最严格的隐私保护法案《通用数据保护法案》(GDPR)除了明确技术效果之外,更是引入了巨额的罚款措施,一个国际集团中任一个子公司可能会因单次违规事件,而可能面临高达集团前年全球年度总收入 4% 的巨额罚款,GDPR 法案的实施进一步加强了隐私保护产业化的必要性和迫切性。

2. 隐私计算的行业标准

随着隐私计算技术近几年的快速发展和落地应用,国际与国内隐私计算的相关标准相继制定发布。

3. 隐私计算的市场前景

当前国内各行业对于数据流通的需求日趋旺盛,IDC 于 2021 年 8 月在《2021 年全球大数据支出指南》中预测,到 2024 年国内大数据市场规模将超过 200 亿美元;毕马威于 2021 年 4 月在《2021 隐私计算行业研究报告》中指出,国内隐私计算技术营收服务将在 2024 年达到 200 亿人民币。

Gartner 在 2021 和 2022 连续两年将隐私增强计算(Privacy Enhancing Computation)评为重要战略技术趋势之一。

4. 隐私计算的定义与作用

隐私计算的目标主要是防止数据中隐私信息的泄露,因此隐私保护技术最主要的性能指标为隐私保护强度。

对于个人消费者而言,隐私计算应用有助于保障个人信息安全。在保障消费者能够享受数字经济便利以及发展红利的同时,避免个人信息的泄露。

对于企业和机构而言,隐私计算是数据协作过程中履行数据保护义务的关键路径。一方面,在企业内借助隐私计算,能够切实保护企业在采集、存储、分析等过程中的关键信息等数据,另一方面,隐私计算能够促进企业的跨界数据合作。由于隐私计算能够实现数据的可用不可见,能够帮助不同的企业以及机构在产业链的上下游进行联合分析,打造数据融合的应用。

对于政府而言,隐私计算是实现数据价值以及社会福利最大化的重要支撑。一是借助隐私计算能够在政府数据开放过程中,在采集、存储、协作等方面提升数据安全和隐私保护水平,二是借助隐私计算推动数据要素赋能产业升级。

5. 隐私计算金融行业应用场景

举一个例子,某个区域银行希望在它存量的信贷客户中找到一些有理财需求的客户,对于存量的信贷用户,缺乏全面的观察,数据的特征以及相应的标签是稀疏的。另一方面,电信运营商拥有比较丰富的用户使用行为的标签,比如手机上面安装的理财APP的数目,每个月登录 App 的次数,以及每个月的理财 APP的使用实践等等,这些信息对判断一个用户对理财产品的兴趣是很有价值的。

传统的方式可能是通过一些像 MD5 加密的方式,把这些信息输出给第三方的处理机构,这样就可能造成大量的用户数据泄露,不符合数据安全的合规要求。

隐私计算的场景下,银行就可以跟当地运营商开展合作,从而保证我们在原始数据不出域的情况下,比如基于 PSI 去做隐私求交,通过标签的组合去筛选出可能对理财产品有兴趣的目标用户。

另一个案例,小贷的风控场景里,一些金融机构逐步开始引入一些外部的数据来拓展其本身的数据应用的范围与使用的效果。银行就可以借助隐私计算技术,与其他机构开展小微领域的联合建模。

6. 隐私计算技术分类

隐私计算技术可分为安全多方计算、联邦学习和机密计算等。

(1) 安全多方计算

旨在解决一组互不信任的参与方之间保护隐私的协同布局问题,为数据需求方提供不泄露原始数据前提下的多方协同计算能力。

安全多方计算(SMPC 或 MPC)最初由图灵奖获得者、中国科学院院士姚期智教授在1982 年通过百万富翁问题提出,主要针对无可信第三方情况下如何安全地进行多方协同计算问题。涉及到零知识证明同态加密、差分隐私、不经意传输技术等。

通过 MPC 则可以设计一个协议,在这个协议中,算法取代中间人的角色,Alice 和Bob 的薪资以及比较的逻辑均交由算法处理,参与方只需执行计算协议,而不用依赖于一个完全可信的第三方。

安全多方计算所要确保的基本性质就是:在协议执行期间发送的消息中不能推断出各方持有的私有数据信息,关于私有数据唯一可以推断的信息是仅仅能从输出结果得到的信息。

(2) 联邦学习

其设计目标是在保障数据交换时的安全、保护隐私的前提下,在多参与方或多计算节点之间开展高效率的机器学习。

假设企业 A 和 B 联合训练一个模型,它们分别拥有各自用户的数据。出于数据隐私保护,A 和 B 无法直接进行数据交换,通过引入可信第三方 C,在联邦学习系统基础上建立模型如下:

协作者 C 把公钥分发给 A 和 B,用以对训练过程中需要交换的数据进行加密。A 和 B 之间以加密形式交互用于计算梯度的中间结果。C 通过汇总A和B的结果计算总梯度值并将其解密。C 将解密后的梯度分别回传给 A 和 B,A 和 B 根据梯度更新各自模型的参数

(3) 机密计算

通过基于硬件的可执行环境对使用中的数据进行保护。

机密计算是一种云计算技术,它在处理过程中将敏感数据隔离在受保护的 CPU 飞地中,飞地的内容只由授权的编程代码访问,并对任何人或任何其他人都是不可见和不可知的。

主要通过利用基于硬件的可信执行环境(TEE)解决可能受到的恶意攻击问题。

(4) 技术对比

--

02

区块链+隐私计算

1. 区块链+隐私计算的必要性

首先从区块链的角度来看,区块链本身存在着一定的局限性,区块链上的数据是公开透明的,数据的合规处理以及隐私保护能力面临不足;另一方面链上的数据处理能力不足,制约技术的进一步落地以及一些商业化的拓展。通过引入隐私计算,可以保障数据从产生、感知、发布、传播到存储、处理、使用、销毁等全生命周期中的隐私性。通过对数据规范化的处理,也可以提升数据处理,数据共享的效率,进而提升区块链数据处理的能力。

从隐私计算的角度来讲,也存在一定的缺陷。隐私计算数据共享方面缺乏安全的校验,制约整个数据流通的可行性。另一方面,数据共享缺乏确权机制,制约数据在流通过程中的应用性。通过引入区块链,可以通过对整个数据流通环节的流程对参与者进行记录,实现共享过程中的权责分明。同时在数据传输环节中,也可以记录数据的提供者,确认数据提供方的真实性,有利于数据确权。

区块链与隐私计算技术具有一种互补性,两者的融合是必然趋势。2021 年是隐私计算规模化落地的元年,这种区块链加隐私计算目前还并不是标配,但很多企业已经看到了区块链与隐私计算结合的趋势。

2. 区块链与隐私计算结合的案例

微众银行:多方大数据隐私计算平台 WeDPR-PPC

2020 年 1 月, 微众银行发布了即时可用场景式隐私保护高效解决方案WeDPR。WeDPR 融合了区块链技术与隐私计算技术,使得实际商业场景中的敏感数据在区块链上可以得到更好的隐私保护。2021 年 5 月,结合区块链和安全多方计算的优势,微众银行又推出多方大数据隐私计算平台 WeDPR-PPC。

蚂蚁链:区块链网络平台 FAIR

2021 年 10月 22 日,在云栖大会上,蚂蚁集团旗下蚂蚁链推出全新区块链网络平台 FAIR。目前, FAIR 平台已经开始在政务领域、大型企业中落地,并且在金融等更多领域的探索正在进行当中。

趣链科技:金融业数据共享平台

趣链科技与央行分支机构、银行开展合作,运用区块链+隐私计算技术设计了数据报送模式,在江西南昌成功落地金融业数据共享平台,建立了融资联合征信平台,解决了机构数据共享的问题。

八分量:政府税务数据平台

税务部门在监管各个企业汇总的税务数据时,无法准确识别税务信息(如发票)是否造假,其背后有没有真实交易行为发生。八分量提供基于隐私计算及跨链的税务数据平台,来解决各企业间的数据安全、数据共享、数据流通和数据验证问题。

星云基因:Oasis Network 框架

医疗行业里的病人数据具有高度隐私性,目前缺乏一套记录患者完整医疗信息的数据系统。星云基因使用 Oasis Network 的框架,客户可以保留其基因组数据的所有权,而星云基因可以在不查看客户原始信息的情况下对数据进行分析。

--

03

研究工作进展

1. 联邦学习概念

Konečný 于 2015 年在机器学习中引入了一种新的分布式优化设置,在此设置的基础上提出了联邦学习的概念,旨在在数据分布在大量客户端上的场景中训练一个高效的集中式模型。

联邦学习包括一个中心服务器和多个客户端,服务器用于维护全局模型,每个客户端维护各自的局部模型。在训练开始时,全局模型和局部模型会被进行随机的初始化。

① 服务器随机选择一个客户端子集,该子集中的客户端将全局模型下载到本地。

② 子集中的每个客户端执行一定轮次的模型训练并计算局部梯度。

③ 子集中的客户端将其局部梯度发送到服务器。

④ 服务器接收局部梯度并整合构建全局梯度。

上述步骤不断迭代,直到模型收敛,精度达到要求。

2. 联邦学习应用

(1)Gboard: next-word prediction

联邦学习最有名的案例之一就是 Google 的 Gboard。我们在用键盘发信息时,传统的方式中敲击的数据都会传输到服务器,通过收集大量数据来训练出一个更符合用户习惯的推荐。在应用联邦学习后,数据会保留在本地手机中,手机里会有一个模型在不断更新,更新后的模型参数再加密上传到服务器,服务器在融合后再传回给本地用户使用。

(2)Apple: personalized Siri

Apple 也是应用联邦学习做了一个个性化的语音识别。在联邦学习的架构下,语音识别的原始数据存储在本地设备上,由这些数据学习出来的模型在不同设备间共享,从而提供更好的个性化服务。

(3)Intel: brain tumor detection

在医疗场景下,Intel 联合了各国医疗机构,将数据整合,在联邦架构下,做了一个大脑肿瘤检测。

(4) Nvidia: mammogram analysis

还有比如 Nvidia 的乳房 x 光数据分析,也是应用了联邦学习。

3. 联邦学习存在的问题

Statistical Heterogeneity 统计异构

客户端的数据分布差异,会导致全局模型在不同客户端上表现不同。

Systems Heterogeneity 系统异构

由于客户端的硬件水平和计算资源差异所带来的系统异构性,会降低全局模型的训练速度。

Communication Cost 通讯成本

联邦学习过程中客户端节点数量、通讯轮次、传输参数大小都会直接影响整体训练效率。

Security & Robustness 安全性和鲁棒性

联邦学习框架由于缺乏对局部梯度的身份认证,容易受到拜占庭客户端攻击,例如梯度放缩攻击、全零和反向梯度攻击。在实际应用中,商业竞争使得在参与者中很难找到一个完全可信的中心服务器,恶意服务器的存在会降低全局模型性能,严重影响着联邦学习的鲁棒性。

4. 解决思路:去中心化联邦架构

一种解决方案就是去中心化的联邦架构。不需要依赖某一个固定的中心服务器进行联邦学习。

BrainTorrent-based:Nodes complete aggregation through P2P protocol。基于P2P 协议去中心化联邦架构,任意两个客户端都可以通过协议交换信息,并且在每一个通讯轮次中更新本地模型。

Gossip-based:Nodes complete aggregation through Gossip protocol。基于Gossip 协议来做模型的聚合。

Blockchain-based:Nodes complete aggregation through Blockchain consensus。结合区块链的联邦学习架构。

5. 去中心化联邦架构局限性

对于拜占庭攻击的算法,无法达到一个很好的表现。在整体的模型收敛性和鲁棒性上,缺乏理论上的分析。

另一方面是一些去中心化的联邦架构,对攻击不够鲁棒,同时也存在着大量的通讯开销。

6. CMFL:A Decentralized Federated Learning Framework with Committee Mechanism

针对以上问题,我们提出了 CMFL 基于委员会机制的去中心化联邦。

联邦节点分以下四部分

训练客户端 ——获取全局模型、训练模型、上传本地更新参数。委员会客户端——获取训练者模型更新、验证模型更新、选择聚合客户端、参与共识。聚合客户端——模型更新满足委员会选择策略,并参与全局模型聚合。空闲客户端——不参与本轮次模型更新。

功能模块包括:

评分模块:委员会客户端根据既定的评分系统对训练客户端的局部梯度进行评分。选择模块:符合选择策略的合格梯度被选中用于构建全局梯度。选举模块: 选举策略旨在完成委员会成员的更替。所有委员会客户端进行投票选举,部分符合选举策略的训练客户端成为下一轮的委员会客户端。委员会共识协议:基于 pBFT的委员会共识协议,以确保选择、聚合和选举等过程的正确执行。

技术流程:

① 初始时通过智能合约对全局模型初始化,随机挑选客户端作为委员会节点,剩余作为训练节点。

② 训练节点首先获取区块链中最新的全局模型。

③ 然后训练者利用本地数据进行本地训练。

④ 训练节点通过合约接口获取委员会节点信。息,传输模型更新到委员会节点

⑤ 委员会节点对模型进行验证后,将模型更新上传到区块链

⑥ 委员会节点可以获取所有模型更新

⑦ 委员会节点利用本地数据验证模型更新,并进行评分,然后再上传到区块链

⑧ 区块链中的智能合约自动聚合评分,并依据评分聚合模型更新,形成新一轮的全局模型。

⑨ 最后基于评分自动选举出新一轮的委员会节点

⑩ 同理,下一轮训练如此进行

7. CMFL各模块功能介绍

(1)评分模块 Scoring System

计算训练客户端的参数与委员会客户端的距离。代表第 c 个委员会客户端对第 k 个训练客户端的打分,如果它们之间的梯度靠得比较近,分数就会比较高。这样就可以得到委员会对整个训练过程的一个评判分数。

(2)选择模块 Selection Strategy

我们设计了两种相反的选择策略来确定用于更新全局模型的局部梯度。

第一种策略是在攻击场景下的,会选择分数较高的,因为分数高的节点和委员会节点梯度靠近。

第二种策略是在无攻击场景下,选择分数较低的,与攻击场景不同,这里反应的是数据分布上的差异。要得到好多模型效果,需要去考虑不同的数据分布,这样模型的学习才能更加全面。

(3)选举模块 Election Strategy

委员会需要不断去选举更新,否则就又成了中心化的情况。选举策略主要考虑鲁棒性和系统稳定性两个方面。

(4)委员会共识协议 CCP: Committee Consensus Protocol

委员会共识协议的设计主要是为了保证评分、聚合、选择和选举操作的正确执行。流程如上图所示。

8. 理论分析

9. 通信高效性

同时,我们也设计了一个高效的通信方式,高效的通信版本 ECMFL(Efficient-CMFL),其基本思想是通过异步的形式把计算与通信阶段重叠。

10. 实验设置

实验方面,我们在两个数据集上进行了比较。实验分为五个部分:常规训练实验、鲁棒性比较实验、超参数分析实验、效率实验和委员会成员分析实验。

在无攻击场景下,使用第二种选择策略,也就是选择评分较低的节点梯度做融合,效果会更好,因为这样可以考虑到更多的数据分布。

从上面的对比图可以看到,第二种策略各个客户端被融合的次数都是差不多的。

在恶意攻击的场景下,我们也对比了不同攻击下我们的方法与其它方法的表现,即使在恶意攻击达到 50% 的情况下,我们的方法仍然可以达到 80% 的准确度。

11. 总结

我们的方法融合了区块链和联邦学习,使其更好地互补。

--

04

未来发展分析

隐私计算与区块链的融合会带来几大方面的改变:

首先,会形成大规模数据流通和数据要素市场,近年来国家也在不断强调数据要素在经济发展中的重要作用;

另一方面,会推动数据资产化的发展;

还有,会对现有业态带来改变。

区块链与隐私计算技术融合的重点领域包括:

政务领域一方面,实现政府不同部门之间的互联互通及数据共享,另一方面,可以促进政务数据与民间数据的双向开放。金融领域扩大数据来源,有助于信贷及保险等金融产品的精准定价;内外部多方数据的共享融合有助于提高金融机构的反洗钱甄别能力。医疗领域在疾病治疗和药物研究方面,促进更多的医疗数据被联合起来进行分析和研究,从而为许多疾病的治疗带来新的突破。在医疗保险方面,主要是可以使得保险公司可以应用到更多的数据,改善保险产品的设计。

区块链+隐私计算也存在一些需要解决的问题:

引用文献:

Y. Li, C. Chen*, N. Liu, H. Huang, Z. Zheng, Q. Yan, "A Blockchain-based Decentralized Federated Learning Framework with Committee Consensus". IEEE Network. 2021 DOI: 10.1109/MNET.011.2000263

C. Che, X. Li. X. He, C. Chen*, Z. Zheng, "A Decentralized Federated Learning Framework via Committee Mechanism with Convergence Guarantee", IEEE Transactions on Parallel and Distributed Systems. 2022 DOI: 10.1109/TPDS.2022.3202887

--

05

问答环节

Q1:训练节点和委员会节点的对应关系是怎么样的?训练节点将梯度上传给哪个,委员会节点是怎么设定的?

A1:现在所有的节点都会构成这么一个池子,里面有一部分节点会作为一个训练节点,刚开始的时候,委员会节点是随机选择的,训练节点也是随机选择的,但是经过一轮训练完之后,委员会节点就会退出,变成空闲的节点。

刚刚参与的训练节点里面,那些分数适中的会选择回新一轮的委员会节点。

Q2:框架 CMFL 是如何抵御刚才提到的一些攻击,比如拜占庭攻击,还有女巫攻击 ?

A2:拜占庭攻击的一个抵御主要是后面 CCP 协议的过程,整个过程需要在无中心化的场景下模型聚合要达到一半以上,才会对整体模型进行更新。

另一方面,模型的评分模块也能够起到一部分筛选功能。因为这个评分模块做的事情就是:某一委员会节点,对采集到的所有训练节点的梯度进行评分。所以这其实是通过这两个层次上面的一个保证,一个是评分模块,一个是整体上面共识协议的模块,来抵抗攻击。

今天的分享就到这里,谢谢大家。

|分享嘉宾|

陈川 副教授|中山大学 计算机学院

现任中山大学计算机学院副教授。2016 于香港浸会大学数学统计专业获博士学位,近年来主要研究方向包括联邦学习,图机器学习,社交网络、知识图谱等。相关领域发表国际学术期刊(IEEE TPDS, TNN,TIP, NSR等)及学术会议(KDD, ICML, AAAI等)60余篇,其中ESI高被引论文1篇。现任Elsevier期刊Software Impacts副主编,担任IJCAI/AAAI等多学术会议的SPC及论坛主席,CCF人工智能与模式识别专委会委员, 广东省计算机学会数字经济专委会及区块链专委会委员。主持国家重点研发计划项目课题,国家自然科学面上/青年基金,广东省基础研究项目,2019年CCF-腾讯犀牛鸟科研基金,2021年腾讯微信犀牛鸟专项基金,与微众银行/网易游戏/招联金融等企业开展校企研究合作。

|DataFun新媒体矩阵|

|关于DataFun|

专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。

标签: #语音生成模型联邦训练