论文部分内容阅读
【摘 要】本文旨在阐述大数据背景下的信息安全,首先以大数据基本概念入手,介绍了大数据的数据量大、结构多样化、价值密度低、处理速度快、复杂性的4C+V的特征,然后阐述了大数据网络APT攻击、用户隐私数据保护、海量数据存储等安全问题,最后详细介绍了大数据信息安全体系构建、添加数据标识、加密数据通信以及实施动态数据存储监控和管理的大数据信息安全策略,从而构建大数据的信息安全的网络环境。
【关键词】大数据;信息安全;APT;数据标识;存储监控
一、概述
随着国民经济的不断快速发展,尤其是我国加入世界贸易组织(WTO)之后,我国经济正朝着经济全球化和国际市场化的方向快速发展,从而使得我国各个企业与国外经济体的联系和交流越来越广泛。在经济全球化日益加速的今天,互联网技术的不断优化和更新,企业经济的发展越来越快,经济样式也越来越多,也就催生了企业生产数据的不断增加,尤其是近几年智能网络终端的增加、云计算技术的广泛应用等,互联网的数据量更是呈爆炸式增长。据国际互联网数据中心IDC (Internet Data Center)预计,互联网内现有的数据量90%以上是近几年才产生的,而且每两年就会翻一番的速度增长,到2020年,全球互联网数据量将增加50倍。这就表明,互联网经济已经步入了大数据时代。大数据是指互联网内数据信息量非常巨大且不能用当前常见的工具在正常时间内无法处理的数据信息。由于互联网自身的特点,这些数据绝大多数都是以非结构化的多样化形式存在,但是为人们的决策、规律研究、有用信息挖掘等提供重要的数据依据。随着时代的前进,大数据将会随着互联网络的发展而更具开发性,这也为大数据的私密数据泄露和敏感信息窃取等信息安全问题的解决提出了更大的挑战。所以如何确保数据信息安全性对于在在大数据背景下推动各个政府部门、教育科研机构、企业单位和金融机构等诸多领域的快速安全发展来说具有非常重要的现实意义。
二、大数据简介
上世纪八十年代初,美国著名谢家Alvin Toffler在《第三次浪潮》中提及了“大数据”(Big Data)的概念。大数据是指以计算机技术为基础的规模庞大、利用当前常规的数据处理工具无法在合理时间内进行正常存储、提取、搜索、分析、处理等的数据信息。同时,大数据也代表着异于传统数据信息处理系统的新的技术和框架,可以更加有效、经济地、高频率地、智能地从大容量、不同数据结构和类型的多样化数据中获取有用的价值和信息。
大数据具有五个特征,可以通过4C+V来描述,分别是Volume,Variety,Value,Velocity,Complexity。
其中Volume表示大数据的数据量多、规模巨大的特性。在对大数据进行描述时,常见的GB或者TB的数据存储单位已经不再使用,而是以PB(1024TB)、EB(1024PB)甚至ZB(1024EB)。根据一些资料显示,国际互联网数据中心IDC预测,2020年全球互联网数据量为35ZB。所以,大数据的特点首先就是数据规模庞大。Variety表示大数据的数据结构多样化,数据类型更加复杂,不仅包括常见的计算机处理的结构数据,包括二维或多维的数据结构存储表,而且有很多文件、视频、图片、音频等非结构化的数据信息。由于互联网分布式的特点,加上物联网、云计算等技术平台的不断发展,信息数据的来源逐渐趋于多样化,互联网数据来源逐渐增加,首先是互联网终端用户,在各种互联网应用中产生的文字、图片、视频、音频等各类数据信息,然后就是各种互联网设备以及各种信息管理系统,在生产过程中产生的各种文件、数据库、审计、操作日志等信息数据,最后就是各种物联网的传感设备和信号采集设备,如医疗设备产生的各种生命特征数据、天文望远镜产生的大量天文相关的信息数据等。Value表示大数据的价值密度低的特征。由于大数据数据量多,所以数据基数大,加上对于企业生产决策的有用信息并不多,所以大数据价值密度低也是大数据的另外一个特性。这里值得说明的是,价值密度低不是没有价值,对于企业来说,大数据的存储是一个企业在发展过程中非常宝贵的财富。Velocity表示大数据的数据信息处理速度快的特性,由于大数据基数庞大,所以数据处理速度快将是大数据时代数据处理工具一个最为明显的特征。Complexity表示大数据的复杂性的特征。特别是当前人们要求大数据的智能分析和处理的阶段,大数据处理和分析的复杂性将进一步提升。
三、大数据面临的安全问题
在大数据时代,数据信息成为企业发展的重要资源,然而随着数据的不断增加,大数据的安全风险也会逐渐增加,加上大数据是未来互联网络新的竞争点,必然也成为众矢之的,引发更多的安全为题。
(一)大数据的网络攻击
由于大数据的数据规模庞大,在互联网云端采用分布式存储形式进行存储,相关数据已经形成了统一的视图,就存储形势来看,数据保护相对简单,很容易为黑客留下攻击漏洞,更加便以黑客实施高持续行威胁APT攻击,造成安全问题。由于大数据环境下终端用户非常多,且群体复杂,所以系统很难对网络用户的合法性进行快速实时的判断。所以,大数据为高持续性威胁攻击提供了良好的隐藏环境,APT在一个不确定的时间内进行持续攻击,并且无法被实时检测到,对大数据造成极大的威胁。在2013年3月份,韩国包括KBS以及多家民间企业在内的网站受到黑客的高持续性威胁攻击(APT),导致互联网络受阻,计算机系统瘫痪。在此次APT中,韩国的金融机构共受到1500多次的非法入侵,受害的计算机达48000台,成为2013年度最严重的APT攻击。如图1.所示,为近些年互联网络受到APT攻击的趋势图。
由于高持续威胁攻击具有很强的针对性,且攻击时间长,配合数据挖掘技术等大数据分析攻击和手段,很容易获取大数据中获取有用的数据信息,从而引发数据泄露,造成更大的危害。
(二)大数据的用户隐私 由于大数据对所有网络用户的数据进行汇集存储,在一定程度上,为用户的个人数据的隐私保护埋下了安全隐患。如果大数据安全机制不完善,在用户对个人数据操作不当的情况下,可能会造成一些相关的隐私数据的泄露,从而造成严重的隐私数据的安全问题。大数据的个人用户数据的隐私保护,需要强大的大数据分析和处理技术和完善的隐私数据保护机制,来提升数据安全级别。如果在大数据管理端没有完善的数据管理机制,用户的一些敏感数据信息的所有权和使用权的界定或者分配可能会出现问题,对于大数据分析的应用来说,势必会造成用户隐私数据泄露,引发数据安全问题。
在对大数据进行数据采集和信息挖掘的时候,要注重用户隐私数据的安全问题,在不泄露用户隐私数据的前提下进行数据挖掘,完成有用信息提取。当前,大数据与云计算平台的结合,使得分布式计算的应用逐渐广泛,如何在分布计算的信息传输和数据交换时保证各个存储点内的用户隐私数据不被非法泄露和使用是当前大数据背景下云计算信息安全的主要问题。同时,当前的大数据数据量并不是固定的,而是在应用过程中动态增加的,而传统的数据隐私保护技术大都是针对静态数据的,所以如何有效地应对大数据动态数据属性和表现形式的数据隐私保护也是要注重的安全问题。最后,大数据的数据远比传统数据复杂,现有的敏感数据的隐私保护是否能够满足大数据复杂的数据信息也是应该考虑的安全问题。
(三)大数据的数据存储
大数据的数据类型和数据结构是传统数据不能比拟的,在大数据的存储平台上,数据量是非线性甚至是指数级的速度增长的,各种类型和各种结构的数据进行数据存储,势必会引发多种应用进程的并发且频繁无序的运行,极易造成数据存储错位和数据管理混乱,为大数据存储和后期的处理带来安全隐患。当前的数据存储管理系统,能否满足大数据背景下的海量数据的数据存储需求,还有待考验。不过,如果数据管理系统没有相应的安全机制升级,出现问题后则为时已晚。
四、大数据的信息安全策略
由于大数据自身的宝贵价值,在如火如荼地发展期间,必然要注重大数据的信息安全问题,来从而提升大数据的安全策略,推动大数据下的云计算的广泛应用。
(一)加快大数据信息安全体系建设
大数据的信息安全体系建设不仅是计算机信息技术的发展问题,更是国家数据安全的策略问题。在大数据的发展规划阶段,要在战略角度出发,切实认识到大数据信息安全的重要性,不仅要在技术上加强大数据信息安全体系建设,更要在策略上态度上重视大数据信息安全建设,明确大数据的重点数据保护对象,构建大数据价值等级,加快完成大数据信息安全体系的建设。
(二)实施大数据信息安全技术
大数据的信息安全技术是通过相关的工具和一定的安全策略,构建完善的大数据信息安全模型,来实现数据信息的安全。首先,可以通过一定的工具,在数据收录和存储阶段完成数据类型的划分,并通过数据挖掘等技术,持续自动地对大数据进行分类、分析、评估,从而为有用信息提取做准备,最后要确保大数据框架下各个节点之间的加密安全的通信,降低大数据的攻击。
在数据收录和存储时对数据进行标记处理,是在确保大数据安全性的前提下,对大规模的价值密度低的大数据实现快速运算处理的有效方法。针对数据标识的内容,可以根据系统不同的要求,对数据的类别、敏感等级等进行标记,然后数据管理系统对该表示进行判断之后,存放到数据库中。如图2.所示,为数据标识判断流程图。
如图2.所示,当数据增加标识后,如果数据库内未对该标识进行记录,则会将该表示直接存入数据库。如果已经有记录,则会直接将该数据存入数据库。在数据已经有数据标识之后,则可以通过数据挖掘技术(如决策树、聚类等)对数据进行实施快速处理,为后期有用价值提取做好准备。
在大数据的分布式计算框架下,数据加密的安全传输是加强大数据信息安全的重要问题,可以在分布式框架下的客户端和服务器端配置统一的数据传输加密配置文件,通过将密钥与通信数据的分开存储来增加分布式系统的数据传输的安全性。
(三)加强大数据动态存储机制
大数据的数据存储问题是解决海量数据动态并发存储的安全监控问题,在海量数据的动态存储过程中,要对数据存储程序进程等进行安全监控和检测,同时对系统各种硬件资源如CPU、内存、磁盘、输入输出端口进行全面监控和控制,从而建立高校的动态数据细粒度的分析机制和安全监控机制,确保大数据的海量数据动态并发存储的有序进行,保证大数据管理系统自身的运行可靠性和安全性。
五、总结
大数据的信息安全是针对大数据环境下的网络APT攻击、用户隐私数据保护以及数据存储等安全问题的安全的策略,主要是通过构建完善的大数据信息安全体系、实施数据标识、加密通信以及动态存储监控等方法手段来提升大数据信息安全性,从而为互联网络创建一个安全稳定的大数据环境。
参考文献:
[1]郭三强,郭燕锦. 大数据环境下的数据安全研究[J]. 科技广场. 2013(02)
[2]陈明奇,姜禾,张娟,廖方宇. 大数据时代的美国信息网络安全新战略分析[J]. 信息网络安全. 2012(08)
[3]陈建昌. 大数据环境下的网络安全分析[J]. 中国新通信. 2013(17)
[4]王文超,石海明,曾华锋. 刍议大数据时代的国家信息安全[J]. 国防科技. 2013(02)
[5]吴蓓,刘海光.浅析大数据时代的信息安全[J]. 计算机光盘软件与应用. 2013(15)
[6]钱林红,邓家荣. 信息系统数据安全防范策略[J]. 电脑知识与技术. 2011(12)
[7]网珊,王会举,覃雄派,周烜. 架构大数据:挑战、现状与展望[J]. 计算机学报. 2011(10)
[8]冯登国,张敏,李昊. 大数据安全与隐私保护[J]. 计算机学报. 2014(01)
【关键词】大数据;信息安全;APT;数据标识;存储监控
一、概述
随着国民经济的不断快速发展,尤其是我国加入世界贸易组织(WTO)之后,我国经济正朝着经济全球化和国际市场化的方向快速发展,从而使得我国各个企业与国外经济体的联系和交流越来越广泛。在经济全球化日益加速的今天,互联网技术的不断优化和更新,企业经济的发展越来越快,经济样式也越来越多,也就催生了企业生产数据的不断增加,尤其是近几年智能网络终端的增加、云计算技术的广泛应用等,互联网的数据量更是呈爆炸式增长。据国际互联网数据中心IDC (Internet Data Center)预计,互联网内现有的数据量90%以上是近几年才产生的,而且每两年就会翻一番的速度增长,到2020年,全球互联网数据量将增加50倍。这就表明,互联网经济已经步入了大数据时代。大数据是指互联网内数据信息量非常巨大且不能用当前常见的工具在正常时间内无法处理的数据信息。由于互联网自身的特点,这些数据绝大多数都是以非结构化的多样化形式存在,但是为人们的决策、规律研究、有用信息挖掘等提供重要的数据依据。随着时代的前进,大数据将会随着互联网络的发展而更具开发性,这也为大数据的私密数据泄露和敏感信息窃取等信息安全问题的解决提出了更大的挑战。所以如何确保数据信息安全性对于在在大数据背景下推动各个政府部门、教育科研机构、企业单位和金融机构等诸多领域的快速安全发展来说具有非常重要的现实意义。
二、大数据简介
上世纪八十年代初,美国著名谢家Alvin Toffler在《第三次浪潮》中提及了“大数据”(Big Data)的概念。大数据是指以计算机技术为基础的规模庞大、利用当前常规的数据处理工具无法在合理时间内进行正常存储、提取、搜索、分析、处理等的数据信息。同时,大数据也代表着异于传统数据信息处理系统的新的技术和框架,可以更加有效、经济地、高频率地、智能地从大容量、不同数据结构和类型的多样化数据中获取有用的价值和信息。
大数据具有五个特征,可以通过4C+V来描述,分别是Volume,Variety,Value,Velocity,Complexity。
其中Volume表示大数据的数据量多、规模巨大的特性。在对大数据进行描述时,常见的GB或者TB的数据存储单位已经不再使用,而是以PB(1024TB)、EB(1024PB)甚至ZB(1024EB)。根据一些资料显示,国际互联网数据中心IDC预测,2020年全球互联网数据量为35ZB。所以,大数据的特点首先就是数据规模庞大。Variety表示大数据的数据结构多样化,数据类型更加复杂,不仅包括常见的计算机处理的结构数据,包括二维或多维的数据结构存储表,而且有很多文件、视频、图片、音频等非结构化的数据信息。由于互联网分布式的特点,加上物联网、云计算等技术平台的不断发展,信息数据的来源逐渐趋于多样化,互联网数据来源逐渐增加,首先是互联网终端用户,在各种互联网应用中产生的文字、图片、视频、音频等各类数据信息,然后就是各种互联网设备以及各种信息管理系统,在生产过程中产生的各种文件、数据库、审计、操作日志等信息数据,最后就是各种物联网的传感设备和信号采集设备,如医疗设备产生的各种生命特征数据、天文望远镜产生的大量天文相关的信息数据等。Value表示大数据的价值密度低的特征。由于大数据数据量多,所以数据基数大,加上对于企业生产决策的有用信息并不多,所以大数据价值密度低也是大数据的另外一个特性。这里值得说明的是,价值密度低不是没有价值,对于企业来说,大数据的存储是一个企业在发展过程中非常宝贵的财富。Velocity表示大数据的数据信息处理速度快的特性,由于大数据基数庞大,所以数据处理速度快将是大数据时代数据处理工具一个最为明显的特征。Complexity表示大数据的复杂性的特征。特别是当前人们要求大数据的智能分析和处理的阶段,大数据处理和分析的复杂性将进一步提升。
三、大数据面临的安全问题
在大数据时代,数据信息成为企业发展的重要资源,然而随着数据的不断增加,大数据的安全风险也会逐渐增加,加上大数据是未来互联网络新的竞争点,必然也成为众矢之的,引发更多的安全为题。
(一)大数据的网络攻击
由于大数据的数据规模庞大,在互联网云端采用分布式存储形式进行存储,相关数据已经形成了统一的视图,就存储形势来看,数据保护相对简单,很容易为黑客留下攻击漏洞,更加便以黑客实施高持续行威胁APT攻击,造成安全问题。由于大数据环境下终端用户非常多,且群体复杂,所以系统很难对网络用户的合法性进行快速实时的判断。所以,大数据为高持续性威胁攻击提供了良好的隐藏环境,APT在一个不确定的时间内进行持续攻击,并且无法被实时检测到,对大数据造成极大的威胁。在2013年3月份,韩国包括KBS以及多家民间企业在内的网站受到黑客的高持续性威胁攻击(APT),导致互联网络受阻,计算机系统瘫痪。在此次APT中,韩国的金融机构共受到1500多次的非法入侵,受害的计算机达48000台,成为2013年度最严重的APT攻击。如图1.所示,为近些年互联网络受到APT攻击的趋势图。
由于高持续威胁攻击具有很强的针对性,且攻击时间长,配合数据挖掘技术等大数据分析攻击和手段,很容易获取大数据中获取有用的数据信息,从而引发数据泄露,造成更大的危害。
(二)大数据的用户隐私 由于大数据对所有网络用户的数据进行汇集存储,在一定程度上,为用户的个人数据的隐私保护埋下了安全隐患。如果大数据安全机制不完善,在用户对个人数据操作不当的情况下,可能会造成一些相关的隐私数据的泄露,从而造成严重的隐私数据的安全问题。大数据的个人用户数据的隐私保护,需要强大的大数据分析和处理技术和完善的隐私数据保护机制,来提升数据安全级别。如果在大数据管理端没有完善的数据管理机制,用户的一些敏感数据信息的所有权和使用权的界定或者分配可能会出现问题,对于大数据分析的应用来说,势必会造成用户隐私数据泄露,引发数据安全问题。
在对大数据进行数据采集和信息挖掘的时候,要注重用户隐私数据的安全问题,在不泄露用户隐私数据的前提下进行数据挖掘,完成有用信息提取。当前,大数据与云计算平台的结合,使得分布式计算的应用逐渐广泛,如何在分布计算的信息传输和数据交换时保证各个存储点内的用户隐私数据不被非法泄露和使用是当前大数据背景下云计算信息安全的主要问题。同时,当前的大数据数据量并不是固定的,而是在应用过程中动态增加的,而传统的数据隐私保护技术大都是针对静态数据的,所以如何有效地应对大数据动态数据属性和表现形式的数据隐私保护也是要注重的安全问题。最后,大数据的数据远比传统数据复杂,现有的敏感数据的隐私保护是否能够满足大数据复杂的数据信息也是应该考虑的安全问题。
(三)大数据的数据存储
大数据的数据类型和数据结构是传统数据不能比拟的,在大数据的存储平台上,数据量是非线性甚至是指数级的速度增长的,各种类型和各种结构的数据进行数据存储,势必会引发多种应用进程的并发且频繁无序的运行,极易造成数据存储错位和数据管理混乱,为大数据存储和后期的处理带来安全隐患。当前的数据存储管理系统,能否满足大数据背景下的海量数据的数据存储需求,还有待考验。不过,如果数据管理系统没有相应的安全机制升级,出现问题后则为时已晚。
四、大数据的信息安全策略
由于大数据自身的宝贵价值,在如火如荼地发展期间,必然要注重大数据的信息安全问题,来从而提升大数据的安全策略,推动大数据下的云计算的广泛应用。
(一)加快大数据信息安全体系建设
大数据的信息安全体系建设不仅是计算机信息技术的发展问题,更是国家数据安全的策略问题。在大数据的发展规划阶段,要在战略角度出发,切实认识到大数据信息安全的重要性,不仅要在技术上加强大数据信息安全体系建设,更要在策略上态度上重视大数据信息安全建设,明确大数据的重点数据保护对象,构建大数据价值等级,加快完成大数据信息安全体系的建设。
(二)实施大数据信息安全技术
大数据的信息安全技术是通过相关的工具和一定的安全策略,构建完善的大数据信息安全模型,来实现数据信息的安全。首先,可以通过一定的工具,在数据收录和存储阶段完成数据类型的划分,并通过数据挖掘等技术,持续自动地对大数据进行分类、分析、评估,从而为有用信息提取做准备,最后要确保大数据框架下各个节点之间的加密安全的通信,降低大数据的攻击。
在数据收录和存储时对数据进行标记处理,是在确保大数据安全性的前提下,对大规模的价值密度低的大数据实现快速运算处理的有效方法。针对数据标识的内容,可以根据系统不同的要求,对数据的类别、敏感等级等进行标记,然后数据管理系统对该表示进行判断之后,存放到数据库中。如图2.所示,为数据标识判断流程图。
如图2.所示,当数据增加标识后,如果数据库内未对该标识进行记录,则会将该表示直接存入数据库。如果已经有记录,则会直接将该数据存入数据库。在数据已经有数据标识之后,则可以通过数据挖掘技术(如决策树、聚类等)对数据进行实施快速处理,为后期有用价值提取做好准备。
在大数据的分布式计算框架下,数据加密的安全传输是加强大数据信息安全的重要问题,可以在分布式框架下的客户端和服务器端配置统一的数据传输加密配置文件,通过将密钥与通信数据的分开存储来增加分布式系统的数据传输的安全性。
(三)加强大数据动态存储机制
大数据的数据存储问题是解决海量数据动态并发存储的安全监控问题,在海量数据的动态存储过程中,要对数据存储程序进程等进行安全监控和检测,同时对系统各种硬件资源如CPU、内存、磁盘、输入输出端口进行全面监控和控制,从而建立高校的动态数据细粒度的分析机制和安全监控机制,确保大数据的海量数据动态并发存储的有序进行,保证大数据管理系统自身的运行可靠性和安全性。
五、总结
大数据的信息安全是针对大数据环境下的网络APT攻击、用户隐私数据保护以及数据存储等安全问题的安全的策略,主要是通过构建完善的大数据信息安全体系、实施数据标识、加密通信以及动态存储监控等方法手段来提升大数据信息安全性,从而为互联网络创建一个安全稳定的大数据环境。
参考文献:
[1]郭三强,郭燕锦. 大数据环境下的数据安全研究[J]. 科技广场. 2013(02)
[2]陈明奇,姜禾,张娟,廖方宇. 大数据时代的美国信息网络安全新战略分析[J]. 信息网络安全. 2012(08)
[3]陈建昌. 大数据环境下的网络安全分析[J]. 中国新通信. 2013(17)
[4]王文超,石海明,曾华锋. 刍议大数据时代的国家信息安全[J]. 国防科技. 2013(02)
[5]吴蓓,刘海光.浅析大数据时代的信息安全[J]. 计算机光盘软件与应用. 2013(15)
[6]钱林红,邓家荣. 信息系统数据安全防范策略[J]. 电脑知识与技术. 2011(12)
[7]网珊,王会举,覃雄派,周烜. 架构大数据:挑战、现状与展望[J]. 计算机学报. 2011(10)
[8]冯登国,张敏,李昊. 大数据安全与隐私保护[J]. 计算机学报. 2014(01)