数据删除:数据防御的最佳策略

来源 :计算机世界 | 被引量 : 0次 | 上传用户:galagala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  如果把数据比喻成新油田,那么想要避免相当于有毒泄漏的数据泄露,必须做好安全工作。这一切都始于强大的数据删除策略。
  在65万多个客户的个人信息被泄露后,连锁酒吧Wetherspoon决定删除其存储的几乎所有客户信息,为的是降低风险。毕竟,如果你没有数据,就不需要检查是否合规,也不用针对GDPR的“主题访问请求”进行披露,不会因为出现数据泄露而道歉。
  事实上,数据是如此有毒,以至于加州律师协会互联网与隐私法委员会主席Joshua de Larios-Heiman建议将其视为铀矿而非油田。他说:“废铀棒怎么办?它们变成了有毒资产,很难处理掉它们。如果处理不当,人们会起诉你。”
  如果你开始从这些方面考虑风险,那么你的企业丢掉存储的哪些数据会变得更好?
  不收集不需要的数据
  有很多数据是由人们自己产生的,你无法从中获得任何价值,而保留这些数据可能又会增加风险。微软负责Azure和企业安全的副总裁Julia White评论说:“令我非常震惊的是,人们似乎并没有发现他们不想要的数据,或者出于GDPR的原因应该清除掉的数据。”
  ACLU高级技术研究员Jon Callas指出,不要被存储成本下降所迷惑,以为保存数据很便宜。
  他说:“保存数据的成本比想象得要高,而且收益也很低。它有可能是有用的,对分析有所贡献。但更有可能是有害的——会让你输掉违约案,或者被法庭传唤。随着时间的推移,其可用价值越来越少,但危害价值保持不变。如果你丢失了某个人五年前的住址,欧盟并不关心这是你不想要的不准确的数据,也不关心这对你的业务有什么帮助,丢了你就得负责。在某一时点上,数据和业务会出现交叉。你应该在这些数据交叉之前把它们扔掉。”
  Callas指出,“被传讯和主题访问请求的成本高于存储媒介的成本。有些糟心事可能会发生,有些数据可能会令你陷入更多的糟心事中,结果所导致的成本要远高于这些数据的价值。当你说‘我只保留有理由保留的数据’时,你必须采取的程序会让你陷入截然不同的境地中。”
  高风险数据
  Veritas公司的高级主管Jasmit Sagoo在接受CIO.com采访时表示,数据中心存储的数据有1/3是可有可无的、过时的甚至是多余的。
  他说:“这些数据几乎没有什么业务价值,应该主动删除,尤其是考虑到数据泄露和风险等级时。例如,前员工和前客户数据的风险非常高。这包含个人身份信息,因此只有出于法律原因才值得保存这些数据。财务记录特别容易受到黑客的攻击,这也是需要谨慎管理的敏感数据的具体实例。”
  怎样找到不需要并且应该删除的数据呢?Sagoo说:“作为一个起点,企业应能够识别数据中的具体细节,准确指出风险范围及其潜在价值。了解存储了什么、谁在访问它以及访问频率也很重要。只有这样,才能知道有哪些数据,根据定制的数据保留策略对其进行分类。然后,至少每季度删除一次这些文件。”
  ISG首席分析师Blair Hanley Frank认为,“有些数据永远不应该存储起来进行分析。在2019年仍以纯文本形式存储用户密码的任何企业都是在自找麻烦。”
  删除与不再使用的生产系统相关联的数据。例如,WeatherSpoon公司泄露的用户数据来自一个老网站,而这些数据本不应该还在那里。而Adobe公司泄露的密码数据也来自一个老的非生产系统。Frank指出:“企业不能仅仅因为这些系统是老的IT基础设施的一部分就忽略这些过时或者很少使用的系统。”
  特別要注意跟踪已经提取(通常是XLS或者CSV文件)并移交给开发人员用作示例数据的客户数据库副本。
  对此,你应该屏蔽数据。通过屏蔽数据,可以保留相关的数据统计分布,以便在测试中使用,而不存在泄露的风险。
  Delphix公司董事Benjamin Ross指出:“非生产开发和测试环境虽然非常重要,但却带来了很大的风险,而且往往是GDPR合规的软肋。”
  不要“去身份标识”,直接删除就好
  只有出于当前业务的原因才保存数据,而不是模糊地希望机器学习系统能从中发现一些有用的东西。Callas指出,即便是人工智能初创企业投资人的Andreessen Horowitz,也在质疑收集大量数据是否有价值。Callas说:“有一种神秘的信念,即拥有这种‘数据护城河’便具备了可持续的竞争优势,而作为投资者,经验告诉他们,并非如此。你可能认为这会使你的企业变得更好,但现实却是不太可能。”
  微软研究院(Microsoft Research)高级研究员Mary L.Gray说,这尤其适用于你正在考虑用于训练机器学习模型的数据集的个人识别信息(PII)。她说:“既然有了GDPR,就应该非常严格地限制PII可以收集什么,谁能访问它,采用什么审计措施来说明PII在哪里、何时以及怎样被重新调整用途,出售给收集它的公司之外的某个实体,说清楚这些实体能保留多长时间。”
  而且“去身份标识”的数据并不能保证安全保存,因为只要有足够的数据,仍然可以识别个人身份——即使你不想这样做。她警告说:“认为能够永久地把收集到的数据‘去身份标识’,这实在是无稽之谈。”
  她继续道,“以数据为中心的技术行业还没有找到怎样彻底删除数据的方法,更不用说能确定完全停止收集哪些数据。该行业最终同意了对PII进行散列处理:这相当于在其上运行一个黑色标记。但他们可以收集我们所做的一切。如果你能预测自己在做什么和在哪里做什么,那么你仍然留下了数字足迹,这与图片中的PII没有什么不同。”
  她补充说,虽然删除明显的身份标示(例如,姓名和出生日期)很简单,但“去身份标识”的数据中仍然会包含PII,例如,当用户把全名添加到没有标记为姓名的字段中时,等等。   Gray解释说:“这就是为什么很难堵住数据泄露的原因。”你可以获取一组电子邮件地址数据、另一组地理位置元数据和第三组搜索查询数据,并运行足够的这些数据组合,产生能生成姓名、出生日期和位置的搜索字符串,重新识别出与某一电子邮件地址相关的人员。”
  Frank警告说,这些潜在的有害数据甚至会延缓企业的数据策略。他说:“拥有大量基本上无用的信息会增加人们花在构建和测试模型上的时间,从而使分析有用数据变得更加困难。为了解决这个问题,企业应该主动判断信息带来的价值,并测试这些数据,看看它是否具有预测价值。”
  微软云与人工智能部执行副总裁Scott Guthrie建议减少存储的数据,并尽可能匿名。他说:“如果能够远程监测网络搜索,你会存储进行网络搜索的人的确切位置吗?或者,你在街道或者其他级别上进行匿名处理,这样无论你是否有数据泄露,都不会侵犯隐私了?”
  如果你没有数据,就不会有人滥用数据。
  Callas说:“不要问,‘我为什么要丢掉这些数据?’而是要问,‘我为什么要保留它?’除非你知道为什么要保留数据,否则就应该丢掉数据,因为在现在的环境中,我们能以更低的成本收集更多、更新的数据。”这可以是在自己的网站上提供某种选项,填写调查问卷进行奖励,或者对测试软件程序进行远程监测。
  他指出,扔掉PII后,可以认为,“不管怎样,这才是你想要的。”
  Callas说:“如果公交管理部门因为想知道人们在做什么而进行调查,那么就真得需要准确的数据,并且为这些数据付费是有意义的,但是你应该通过数据过滤机(data grinder)来运行这些数据,丢掉原始数据,然后在一年内彻底處理掉这些数据。比如,如果你想弄清楚要修哪条道路,就不需要那些刚刚修过的道路的数据,特别是数据显示你已经修过这些道路了。刚刚修好的道路的每一条数据都是有毒的:没有好处,只有坏处。”
  对数据的保存时间也要有明确的政策,比如日志文件的保存时间不超过一周(调试除外)。Callas建议建立一些“强制职能”,以确保做出这些决定。“如果我说,‘你放进我的数据仓库的所有东西,十年后我都会删除,除非你告诉我你为什么要保留它’,那么你就得想清楚为什么要把数据放进数据仓库。”
  Mary Branscombe是一位自由撰稿人,他二十多年来一直致力于技术写作,其写作主题涵盖了从编程语言、Windows和Office的早期版本,到最早的网络以及消费类小工具和家庭娱乐的各个方面。
  原文网址
  https://www.cio.com/article/3405129/data-deletion-your-data-strategys-greatest-defense.html
其他文献
“周界防御”的想法和服务器本身一样古老——一提起这个词,就让人联想起上锁的机房间里嗡嗡作响的ENIAC那么大的机器,而防火墙把它们与外部环境分隔开来。当然,您的实际情况不会是这样的——除非您为中央情报局工作。相反,您所保护的数据是在云中,在世界各地的笔记本电脑和手机上流入流出。当信息无处不在时,安全也必须如影随形,让那些还记得实体服务器的人甚至感觉不到还有防护周界的存在。  Keith Casey
即时恢复允许备份被直接访问以便快速恢复文件,同时还可以检查备份系统本身是否正常。  即时恢复的概念相对简单,即能够直接从虚拟机的备份中运行虚拟机,但是这种简单的概念却提供了无限的可能性。这也就解释了为什么它们被认为是备份和恢复领域多年来取得的最重要进步之一。  在即时恢复出现之前,所有恢复基本上都是相同的,都是从如何存储备份开始,即将备份存储在某种类型的容器或映像中。在商业备份和恢复软件出现之前,
现代的企业界最终将完全由人工智能来定义。  多年来,云计算一直被认为是有史以来最强大和最具颠覆性的力量。  云计算提供必要的工具集,在非常技术化的层面上支持数字演进,购买、构建和运行基础设施、平台和软件即服务。因此,云计算必须被视为基础,这是无须讨论的要求!  然而,对于IT和业务决策者来说,现在的自愿行动是采用人工智能(AI)。如果他们能够自动地收集、汇总、处理和利用企业知识以及周边环境的知识,
“我不喜欢跟用户大谈人工智能(AI)如何高深,更希望的是能在用户的不知不觉中帮他解决问题。”作出上述表述的是新近加入销售易的人工智能专家赵宇辰,而他出任的正是销售易的首席数据科学家一职。  有意思的是,赵宇辰曾经供职于LinkedIn,要知道,数据科学家的概念最早就是由LinkedIn提出的。  定位为新型移动CRM软件的销售易为什么会需要人工智能?是未雨绸缪?还是赶时髦?  AI在企业级业务中扮
为什么漏洞发现奖励制度正在兴起?  即便是准备最为充分的公司在应对网络安全挑战时也会感到气馁。正如道德黑客Jamie Woodruff在“活力数字未来”大会上所做演示时所言,“你最弱的员工决定了你的基础设施的强度。从入侵、破解到社交工程,公司中每名团队成员都属于需要管理的风险。”  安全测试公司CA Veracode的EMEA解决方案架构师经理Paul Farrington指出,《2017年软件安
美国零售、电子商务和营销专家预测未来网络零售最热门的发展趋势。  2016年的“黑色星期五”和“网络星期一”已经告诉我们, 2017年会是电子商务的好年景。因为,仅在美国,网上购物者在2016年“黑色星期五”进行的网络购物交易额就破纪录的高达33.4亿美元,而随后的周一则达到33.9亿美元,也打破了以前的记录。  除了提供无法抗拒的折扣之外,零售商还利用各种技术和应用程序,酝酿着各种方式的销售。分
管理比特币和其他加密货币运行的工作量证明(Proof of Work)算法已经被证明速度太慢并且成本过高。因此,开发人员正在考虑一种更快、更有效的算法:权益证明(Proof of Stake)。  区块链分布式账本的工作原理是,把电子记录链连接在一起,每一个都与之前的电子记录紧密相连;只有在完成共识过程后,才能添加一组新的条目或者“区块”,通过哈希标签加上时间戳。  用于验证区块链上的新条目和管理
根據工业和信息化部发布的最新数据显示,今年1~8月,我国规模以上互联网和相关服务企业(简称互联网企业)完成业务收入7522亿元,同比增长20.9%,增速同比提高0.2个百分点,比1~7月加快0.2个百分点。   1~8月,包括网络音乐和视频、网络游戏、新闻信息、网络阅读等信息服务收入规模达4958亿元,同比增长24.3%,增速较1~7月提高3.2个百分点,占互联网业务收入比重为65.9%;以提供
端正成为企业加快数字化活动的首选,以下是评估HaaS(Hadoop即服务)提供商时应考虑的事项。  Hadoop为一种基于开放源代码的软件框架,能够跨分布式集群以高吞吐量处理海量的大数据。  几年前主攻小众市场的Hadoop如今正进军主流市场。随着数字化运动的快速发展,Hadoop提供了充足的应用案例,允许使用普通的商品硬件进行大数据处理。  Hadoop还具有很高的可扩展性,可从单一服务器扩展到
8月9日,在华为全球开發者大会上,华为正式向全球发布了其全新的基于微内核的面向全场景的分布式操作系统——鸿蒙OS。   华为消费者业务CEO余承东表示:鸿蒙OS可以打通PC、手机、平板、电视、车机、手表、智能音箱……等众多终端,可同时满足全场景流畅体验、架构级可信安全、跨终端无缝协同以及一次开发多终端部署的要求。   鸿蒙OS将对全球开发者开源。同时,华为还将全面开放HMS(Huawei Mo