双色球彩民乐预测 今晚双色球预测最准确号码预测 双色球开奖玩法说明 双色球中奖图片恶搞 双色球精准预测6十1玉玲珑 微信可以购买双色球吗 双色球走势图表近50期 双色球中奖方法 双色球开奖结果走势图全图 双色球连号组数怎么看 双色球开奖查询表 双色球选号技巧 双色球专家杀号360 双色球预测最准确专家 程远双色球预测分析

大数据隐私保护技术之脱敏技术探究

kong 2016-11-19 13:08:54


前言

这几天学校开始选毕业设计选到了数据脱敏系统设计的题目在阅读了该方面的相关论文之后感觉对大数据安全有了不少新的理解

介绍

随着大数据时代的到来大数据中蕴藏的巨大价值得以挖掘同时也带来了隐私信息保护方面的难题即如何在实现大数据高效共享的同?#20445;?#20445;护敏感信息不被泄露

数据安全是信息安全的重要一环当前对数据安全的防护手段包括对称/非对称加密数据脱敏同态加密访问控制安全审计和备份恢复等他们对数据的保护各自有各自的特点和作用今天我主要说数据脱敏这一防护手段

许多组织在他们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意的泄露信息例如:

1.大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升级更新和修复

2.在商业上保?#24535;?#20105;力需要新的和改进后的功能结果是应用程序的开发者需要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏

3.零售?#25506;?#21508;个销售点的销售数据与市场调查员分享从而分析顾客们的购物模式

4.药物或者医疗组织向调查员分享病人的数据来评估诊断效果和药物疗效

结果他们拷贝到非生产环境中的数据就变成了黑客们的目标非常容易被窃取或者泄露从而造成难以挽回的损失

数据脱敏就是?#38405;?#20123;敏感信息通过脱敏规则进行数据的变形实现敏感隐私数据的可靠保护在涉及客户安全数据或者一些商业性敏感数据的情况下在不违反系统规则条件下对真实数据进行改造并提供测试使用如身份证号手机号卡号客户号等个人信息都需要进行数据脱敏

数据脱敏系统设计的难点

许多公司页考虑到了这种威胁并且马上着手来处理简单的将敏感信息从非生产环境中移除看起来很容易但是在很多方面还是很有挑战的

首先遇到的问题就是如何识别敏感数据,敏感数据的定义是什么有哪些依赖应用程序是十分复杂并且完整的知道敏感信息在哪并且知道哪些数据参考了这些敏感数据是非常困难的

敏感信息字段的名称敏感级别字段类型字段长?#21462;?#36171;值规范等内容在这一过程中明确用于下面脱敏策略制定的依据

一旦敏感信息被确认在保持应用程序完整性的同时进行脱敏的方法就是最重要的了简单地修改数值可能会中断正在测试开发或升级的应用程序例如遮?#37096;?#25143;地址的一部分可能会使应用程序变得不可用开发或测试变得不可靠

脱敏的过程就是一个在安全性和可用性之间平衡的过程安全性是0%的系统?#26657;?#25968;据不需要进行脱敏数据库中都是原来的数据可用性当然是100%安全性是100%的系统?#26657;?#22823;概所有的数据全?#21363;?#19968;个相同的常量才能实现

所以需要选择或设计一种既能满足第三方的要求又能保证安全性的算法就变得特别重要了

选定了敏感数据和要施加的算法剩下的就是如何实现了在什么过程中进行脱敏呢

难题的解决方案

1.如何识别敏感数据

现在有两种方式来识别敏感数据第一种是通过人工指定比如通过正则来指定敏感数据的格式Oracle公?#31350;?#21457;的Oracle Data Masking Pack中就使用了这一种方法来指定

第二种方式就是自动识别了在文献[2]?#26657;?#20316;者给出了基于数据特征学习以及自然语言处理等技术进行敏感数据识别的自动识别方案(没有具体的实现,只提出了模型)

具体的实现在gayhub上找了一个java实现的工程chlorine-finder看了下源码具体原理是通过提前预置的规则来识别一些常见的敏感数据比如信用卡号SSN 手机号电子邮箱IP地址住址等.

2.使用怎样的数据脱敏算法

在比较常见的数据脱敏系统?#26657;?#31639;法的选择一般是通过手工指定像Oracal的数据脱敏包中就预设了关于信用卡的数据选择什么算法进行处理关于电话的数据怎么处理用户也可以进行自定义的配置

脱敏方法现在有很多种比如k-匿名L多样性数据抑制数据扰动差分隐私等

k-匿名

匿名化原则是为?#31169;?#20915;链接攻击所造成的隐私泄露问题而提出的链接攻击是这样的一般企业因为某些原因公开的数据都会进行简单的处理比如?#22659;?#22995;名这一?#26657;?#20294;是如果攻击者通过对发布的数据?#25512;?#20182;渠道获得的信息进行链接操作就可以推理出隐私数据

k-匿名是数据发布时保护私有信息的一种重要方法 k-匿名技术是1998 年由Samarati和Sweeney提出的 ,它要求发布的数据中存在至少为k的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私, k-匿名通过参数k指定用户可承受的最大信息泄露风险

但容?#33258;?#21463;同?#24066;?#25915;击和背景知识攻击

L-多样性

L多样性是在k-匿名的基础上提出的外加了一个条件就是同一等价类中的记录至少有L个“较好表现”的值使得隐私泄露风险不超过 1/L”较好表现“的意思有多种设计比如这几个值不同或者信息熵至少为logL等等..

但容易收到相似性攻击

数据抑制

数据抑制又称为隐匿是指用最一般化的值取代原始属性值在k-匿名化?#26657;?#33509;无法满足k-匿名要求则一般采取抑制操作被抑制的值要不从数据表中?#22659;?#35201;不相应属性值用“ ** ”表示

>>> s = "CREDITCARD"

>>> s[-4:].rjust(len(s), "*")

'******CARD'

数据扰动

数据扰动是通过对数据的扰动变?#38382;?#25968;据变得模糊来隐藏敏感的数据或规则即将数据库 D 变形为一个新的数据库 D′ 以供研究者或企业查询使用这样诸如个人信 息等敏感的信息就不会被泄露通常D′ 会和 D 很相似从 D′ 中可以挖掘出和 D 相同的信息这种方法通过修改原始数据使得敏感性信息不能与初始的对象联系起来或使得敏感性信息不复存在但数据对分析依然有效

Python中可以使用faker库来进行数据的模拟和伪造

from faker import Factory

fake = Factory.create()

fake.country_code()

# 'GE'

fake.city_name()

# '贵阳'

fake.street_address()

# '督路l座'

fake.address()

# '?#20801;泄?#36335;b座 176955'

fake.state()

# '南溪区'

fake.longitude()

# Decimal('-163.645749')

fake.geo_coordinate(center=None, radius=0.001)

# Decimal('90.252375')

fake.city_suffix()

# '市'

fake.latitude()

# Decimal('-4.0682855')

fake.postcode()

# '353686'

fake.building_number()

# 'o座'

fake.country()

# '维尔京群岛'

fake.street_name()

# '姜路'

相关技术?#26657;?#19968;般化与?#22659;?#38543;机化数据重构,数据净化阻碍抽样等

差分隐私

差分隐私应该是现在比较火的一种隐私保护技术了是基于数据失真的隐私保护技术采用添加噪声的技术使敏感数据失真但同时保持某些数据或数据属性不变要求保证处理后的数据仍然可以保持某些统计方 面的性?#21097;?#20197;便进行数据挖掘等操作

差分隐私保护可以保证在数据集中添加或?#22659;?#19968;条数据不会影响到查询输出结果因此即使在最?#30331;?#20917;下攻击者已知除一条记录之外的所有敏感数据仍可以保证这一条记录的敏感信息不会被泄露

想要体验的同学可以去Havard的Differential Privacy实验室他们做了一个DP的原型实现.

想要详细?#31169;?#30340;同学可以看一下知乎?#31995;?#36825;个问题https://www.zhihu.com/question/47492648

关于动态脱敏系统的实现现在一般有两种一种是重写数据库程序代码在权限判决后对请求语句进行重写从而查询数据另一种是用户的sql语句通过代理后代理会对其中关于敏感信息的部分进行语句的替换并且在返回时会重新包装为与原请求一致的格式交给用户

总结

经过上面的分析看来实现一个全自动的?#26082;仿?#39640;的脱敏系统?#35759;?#30456;当大啊希望自己能?#36745;?#28385;完成任务



˫ɫ
双色球彩民乐预测 今晚双色球预测最准确号码预测 双色球开奖玩法说明 双色球中奖图片恶搞 双色球精准预测6十1玉玲珑 微信可以购买双色球吗 双色球走势图表近50期 双色球中奖方法 双色球开奖结果走势图全图 双色球连号组数怎么看 双色球开奖查询表 双色球选号技巧 双色球专家杀号360 双色球预测最准确专家 程远双色球预测分析