去标识化技术

阅读: 评论:0

去标识化技术

去标识化技术

本博客地址:

一、去标识化的概念

去标识化就是通过使用匿名、假名等方法,让攻击者无法从处理后的数据记录定位到自然人的过程。

二、匿名化

所谓匿名化,就是通过一定的算法,不可逆地去除数据集中的身份标识信息,使得无法从中定位到任何自然人。也就是说,匿名化是一个目标,匿名化之后,无法定位到任何自然人,也就不会泄露个人数据了,可以不再看成是个人数据。

但是也要意识到,在实践中,往往很难做到真正的匿名化并同时保持数据的可用性,而需要在数据的可用性与隐私保护之间进行权衡。一般而言,匿名化是一个非常难以达成的目标。

这里我们通过一个例子来看看,我们假设原始记录是这样的:

姓名身份证号性别出身年月邮箱家庭住址疾病
赵一6541231990122309871990.12123@163余杭区纬一路12号高血压
钱二6541231989101298761989.10124@163余杭区纬二路23号脑血栓
孙三6541231991091212341991.09145@163余杭区经一路34号皮肤病
李四6541231992062345671992.06156@163余杭区经二路45号心脏病
周五6541231988052487231988.05167@163余杭区纬三路56号妇科病

对于匿名化来说,我们在这其中要做的就是替换身份标识信息或删除身份标识信息,从而得到以下数据:

性别出身年月邮箱家庭住址疾病
1990.12123@163余杭区纬一路12号高血压
1989.10124@163余杭区纬二路23号脑血栓
1991.09145@163余杭区经一路34号皮肤病
1992.06156@163余杭区经二路45号心脏病
1988.05167@163余杭区纬三路56号妇科病

以上就是将原始数据匿名化之后的数据,但在实际中,匿名化后的数据通过一定的分析后,仍有一定概率定位到个人,可见简单地删除敏感字段或假名化(姓名替换为假名),并不足以保护个人隐私。

三、假名化

假名化就是对可标识的用户身份信息用假名替换。但是需要了解的是,假名化的数据仍是有很大概率找出对应的自然人,难以达到去标识化的目的,所以假名化的数据仍将被视为个人数据,需要跟明文数据一样加以保护。

四、K-匿名算法

K-匿名算法是通过引入等价类的概念,保障每条隐私数据都能找到相似的数据,从而降低了单条数据的识别度。K-匿名算法的使用场景主要是数据集发布或数据集提供给第三方研究机构。

K-匿名算法要求发布的数据中k条记录为一组,其中的每一条记录都要与其他至少k-1条记录不可区分(这k条记录相似,称为一个等价类)。

这里,参数k为一个整数,表示隐私保护的强度:

● k值越大,隐私保护的强度越强(任何一条疑似某人的记录,都可以再找到k-1条相似的记录)。
● k值越大,丢失的信息更多,数据的可用性就越低(一些比较罕见的样本如果无法凑成一个等价类就不能用了)。

我们来看一个最简单的k=2的场景来帮助理解,处理后的数据如下:

性别出身年月邮箱疾病
1986-199012*高血压
1986-199012*脑血栓

这两条信息在可用于定位的三个字段上完全相同(疾病是隐私信息,假设数据集发布前除了医院和自己家人,没有外人知道),无法从这个信息中判断具体的自然人患了何种疾病,从而降低了具体自然人的隐私泄露风险。

如果一条记录由于样本实在太少,无法构成包含k条记录的等价类,则这条记录就不应纳入数据集。当研究者拿到K-匿名处理后的数据时,将至少得到k个不同人的记录,进而无法做出准确的判断;也就是说,任何一条记录,都可以再找到k-1条相似的记录。

但这仍然是存在缺陷的,如果一个等价类中的多个样本都是同一种疾病,则所涉及的几位自然人的隐私就泄露了,可能会被周围认识的人高度怀疑其患了该病,称之为一致性攻击。

性别出身年月邮箱疾病
1986-199012*高血压
1986-199012*高血压

为了防止一致性攻击,隐私保护模型在K-匿名的基础上,要求保证任意一个等价类中的敏感属性都至少有L个不同的值。

放在这个例子中的话,就是说如果在一个等价类中,疾病种类小于L,则这个等价类中的记录就不能使用了。因为只有一个人患该病的话,也会造成该患者的隐私泄露,至少需要在一个等价类中为其找到L-1个病友或疾病,才能降低其中每一患者隐私泄露的风险。

然而在实际上,该方案还可能存在隐私泄露的风险,例如病毒核酸检测,会有阴性和阳性,它虽然达成了2个疾病概念,但这个多样性其实没有意义,无论结果是阴性还是阳性,记录出现在这个数据集本身就造成部分隐私信息泄露。此外,该方案还存在没有考虑敏感字段的总体分布、语义等方面的缺陷。

K-匿名在实践中,总是不断地被发现存在缺陷以及不断地改进,基于当前知识判断不会造成隐私泄露,也不能排除将来有攻击者从中找出真实的自然人的隐私,因此直接提供数据集的方式所面临的风险还是非常高的。

本文发布于:2024-01-31 17:46:21,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170669438330269.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:标识   技术
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23