作者:胡绍勇
11月27日
打开微信扫一扫
大数据时代数据安全保护实践

一、数据泄露愈演愈烈


《2017年全球数据泄露成本研究》报告发布。研究结果显示,IBM Security 和 Ponemon Institute两家研究机构针对419家公司进行调研,每条包含敏感和机密信息的丢失或被盗记录的平均成本达到141美元。对比往年,今年企业和组织数据泄露的规模较以往更大,平均规模增长了1.8%。数据泄露事件的主要根源中,47%的事件涉及恶意或犯罪行为,25%是由于员工或承包商疏忽(人为因素),28%涉及系统故障,包括IT和业务流程故障。


二、大数据时代的风险来临


大数据给人们带来生活便利的同时,因其对数据的聚合和集中的存储更是增加了数据泄密的风险,大数据时代也是大规模数据泄露的时代。数据即价值,大数据平台汇集了大量数据,无疑会吸引更多的潜在攻击者,于是对平台安全性的关注排在了首位。大数据中敏感数据将有可能成为各方面攻击的显著目标,大数据中敏感数据的安全将成为大数据防护的重点。


三、大数据平台面临恶意攻击



2017年6月,全球的hadoop服务器因配置不安全导致海量数据泄露,涉及使用hadoop分布式文件系统(HDFS)的近4500台服务器,数据量高达5120TB(5.12PB),经分析,这批数据泄露的近4500台HDFS服务器中以美国和中国为主。Hadoop服务器才是“真正的数据泄露巨头”。超过47800台MongoDB服务器仅仅泄露了25TB的数据,而总共只有4487台的HDFS服务器却泄露了超过5000TB的数据量。如此说来,HDFS服务器在总量少于MongoDB服务器10倍的情况下,却泄露了多出MongoDB服务器200余倍的数据量。


风险来源1:基础环境风险


应用层安全威胁、网络层安全威胁、系统层安全威胁、虚拟化层安全威胁。


风险来源2:平台自身风险


比如上文提到的Hadoop等,很多是来自开源的组件,在设计过程中对安全的关注比较少。还有在访问控制等安全功能上,平台自身会产生一些薄弱环节。


风险来源3:数据风险


数据的整个生命周期,采集、传输、存储、访问、共享等环节,都存在相应的薄弱点。目前在访问和共享环节漏洞更多。


四、Hadoop保护思路


现在安全方面都在讲纵深防御的理念。对于Hadoop类似的大数据平台也可以用这样的理念,比如我们可以构建一些护城河进行访问控制,也可以做一个更好的授权,更好的认证和权限控制,引用像门或者是用一些审计的概念。另外也可以利用加密的手段更好的保护数据。


五、大数据安全防护体系



基于上述思路,形成大数据安全的防护体系,核心是从发现、评估、保护和审计四个方面对数据生命周期做安全防护。


在发现方面,首先要看到平台上有哪些资产,包括主机、组件、数据。看到大数据的平台有多少集群,集群里面有多少节点,平台里面每个节点上安装哪些组件。另外在组件上又承载了哪些数据,其中哪些数据是敏感的。同时最关键的是对数据进行分级分类,对敏感数据打上标签。


在发现之后对平台上的资产进行安全评估,评估首先是针对平台基础技术架构,包括组件的安全检查,比如Hadoop等自身的安全性是否能够达到要求。然后是对完善性进行检查,包括组件的具体配置文件。做完配置以后也会对访问控制或者加密上做一些架构的处理。


对于数据保护,数据加密和数据脱敏是目前两种主要的方式。两种方式各有利弊,加密会影响使用的情况,因为它需要对大数据平台有一个加解密的过程,会影响性能。脱敏,包括实时访问的脱敏、动态脱敏、存储层面的脱敏等。第二种防护手段是对整个平台的访问控制和授权。访问控制实现的方式一般有两种,一种是通过平台自身的组建方式,一种是通过网关代理的模式。关于脱敏,动态脱敏是为了弥补加密方式会影响性能的缺点,我们会采用动态脱敏,比如在数据访问过程中,根据用户的请求,通过请求里面对用户身份的识别,对用户进行语法的改写,从而使不同身份的用户能够访问到符合权限设计的相应数据。


最后是审计,审计主要通过三个层面,第一是敏感数据定位视图,第二是平台组件定位视图,第三是敏感数据访问视图。





0 0 评论
流媒体
全球网络安全产业创新论坛致辞
全球网络安全企业竞争力评价
人工智能助力网络威胁防御
全球网络安全产业创新论坛
上海社会科学院互联网研究中心
地址:上海市徐汇区中山西路1610号  电话:64862266-24114  网站:http://cis.sass.org.cn/   邮箱:cis@sass.org.cn
@2017 上海社会科学院互联网研究中心,Inc All rights reserved