前言:
今天兄弟们对“k匿名模型”大概比较关怀,我们都想要分析一些“k匿名模型”的相关资讯。那么小编在网上搜集了一些对于“k匿名模型””的相关内容,希望朋友们能喜欢,我们快快来学习一下吧!只要手机处于开机状态,用户的位置、行动等信息就可以被标绘出来,这种数据会以匿名的方式被提供给第三方,从而让用户能获得更好的服务,同时也能让广告主更加精确地找到目标客户。在大数据时代中,海量的用户数据已经变得能被那些管理和分发数据的互联网公司所获得,有些时候是以“匿名”或是聚合数据集的方式而公开的。
脆弱的匿名ID 仅四个数据点就能识别个体
零散的信息数据看上去无关紧要,但在麻省理工学院学者Yves-Alexandre de Montjoye的一份研究中表明,仅仅需要4个外部确认信息,数据使用者就能以超过90%的几率识别特定用户。所谓外部确认信息,也就是跟用户相关的时空数据点,比如带有定位信息的Twitter、在Google上对某地的评价、Netfliex上的电影评分等等。
如今,为了保障个人信息不被泄露,数据提供方通常使用随机ID代替个人身份信息。比较敏感的个人身份识别信息,如名字、住址、手机号码等因此得以隐藏。但是,匿名ID并不是万全之策,在很多情况下,公开数据只能做到某种程度上的匿名,匿名化的数据也可以被逆转。通过极其少量的外部确认信息,比如时空数据点,数据使用者就能够反向识别某个具体的个人。
反向识别的大致流程是:数据使用者想找到用户A的消费记录。他们由外部确认信息得知,A曾经在4月15日在某甜品店消费,并于4月16日在某餐馆就餐。经过信用卡数据的集中筛选,只有一位ID为“7abc1a23”的用户完全符合上述条件。于是,只通过两条外部确认信息,研究者们就在海量的信用卡数据中找到A,并通过ID获取了他的所有相关记录。
这个例子无疑为置身于大数据时代的人们敲响了警钟:个人的日常生活轨迹极易被各个平台记录在案,它们可以互相参照,并成为其它数据集的外部确认信息。心怀不轨的攻击者,可以轻易地获取和使用不同数据集进行比对,并定位目标个体。
识别VS匿名 一场侦察与反侦察之战
对于人口普查、选民登记、医疗信息等更为敏感的身份信息,也常常在经过简单匿名处理之后,就直接向公众开放。早在1997年,麻省理工学院学者Latanya Sweeney就曾质疑马萨诸塞州保险委员会公布的匿名医疗记录无法保护个人隐私。她借助该州的选民信息,成功反向识别了病患身份,并将研究结果发给州长加以警示。
鉴于匿名ID本身的脆弱性和不可靠,学术界和业界也在不断发明新的方法,以提升个人身份被识别的难度。对于数据隐私保护,当前已经出现了很多模型:K-匿名(K-anonymity)、I-多样化(I-diversity)、T-closeness、差分隐私(Differential Privacy)、同态加密(Homomorphic Encryption)、零知识证明(Zero-Knowledge Proof)等。
比如差分隐私是向原始数据中加入噪声,在增加识别难度的同时,保持数据原有属性。举个例子,Chrome浏览器会首先对用户上传的数据进行随机化修改(randomized response),通过使用布隆过滤器加入噪声,再上传给服务器。不过,差分隐私还是无法避免多个相关数据上报而导致的隐私泄露。更何况,这些方法在推陈出新的同时,攻击者们也会采用更为强力的识别工具。
传统体系的缺陷,隐私保护将往何处去?
令人担忧的是,并不是所有互联网公司和数据公司都有保护隐私的道德良知。很多时候,数据被公开之后,公司就无法再通过后续手段加强其安全性。区块链与数字身份技术的出现,为身份数据隐私保护提供了良好的技术解决方案。
回顾数字身份技术历史,从集中身份、联合身份、以用户为中心的身份,再到如今自我主权身份,每一次演进都在削弱中心化机构的权利,同时提升用户个人的权利。在自我主权身份框架下,用户必须是身份管理的核心,这不仅需要用户的身份在多个位置之间具有互操作性,还需要用户对该数字身份的真正用户控制,从而创建用户自主权。
为了实现这一目标,一个自我主权的身份必须是可移植的,它不能被锁定在一个平台。同时,自我主权身份也必须允许普通用户提出声明,这可能包括个人身份信息或个人能力或团体成员资格的事实。它甚至可以包含由其他人或组断言的用户信息。在建立自我主权的过程中,必须防止权力的滥用,并支持个人的权利,使其不再成为巨头手中的商业筹码。
如果说区块链与数字身份搭建了身份保护的基础框架,那么同态加密和零知识证明等加密技术的融入则为隐私数据提供了双层保护。同态加密无需解密信息数据即可对加密数据进行运算,只有使用解密秘钥才能访问这些数据和交易的详细信息。但同态加密并没有解决这一问题:如何让系统在不泄露过多信息的情况下改变状态?
而零知识证明则正好弥补了这一短板。零知识证明并非新鲜事物,这一概念初见于1985年的论文“互动证明系统的知识复杂性”。ZKP是一种密码学技术,允许证明者和验证者来证明某个提议是真实的,而且无需泄露除了它是真实的之外的任何信息。
一个零知识证明必须要满足以下三个条件:
l 完备性:证明过程执行完之后,验证方只获得了“证明方拥有这个知识”这条信息,而没有获得关于这个知识本身的任何一点信息。
l 合理性:没有人能够假冒证明方,使这个证明成功。
l 零知识:如果证明方和验证方都是诚实的,并遵循证明过程的每一步,进行正确的计算,那么这个证明一定是成功的,验证方一定能够接受证明方。
上述的前两个条件也是通常意义上互动证明系统的属性,第三个条件形成了零知识证明。
越来越多的事例及研究表明,即使采取匿名方式,也无法对隐私数据进行更为妥善地保护。在大数据时代,重隐私者才能得天下。随着Equifax、Facebook等一系列数据泄露事件的爆发,以及各国越来越严格的隐私保护策略施行,将在某种程度上警醒互联网巨头对于隐私保护的重视。
另外,在当前的司法体系下,数据提供者依旧没有义务上报可能遭受了反向识别的数据集,攻击者们也甚少被追究责任。因此,公众很难得知自己的身份数据是否遭遇了泄露和攻击。无论是技术层面还是法律层面,大数据时代的隐私保护都还任重道远。
标签: #k匿名模型