论文部分内容阅读
[摘要]大数据的浪潮席卷全球,引发了人类社会生活的变革。大数据作为信息资本和数据资源,对各行各业产生了巨大的影响,文章就大数据时代的现状,浅析大数据给统计学、个人隐私、国际关系等带来的挑战。
[关键词]大数据;挑战;隐私安全;国际关系
[DOI] 10.13939/j.cnki.zgsc.2018.26
大数据综述
维克托·迈尔-舍恩伯格在《大数据时代》中称:“大数据指不用随机分析法这样的捷径,而采用所有数据进行分析处理。”近年来,大数据不断改变着人们的生活,为企业注入新的机遇。大数据的价值不单单局限于表面的运用,更多源于它的二次利用,各大企业不断聚类、挖掘和分析,以提取有价值的信息,提高企业竞争力。因此,数据将会是企业的财富、重要的开发方向和新型商业模式的基石。[1]
在带来机遇的同时,大数据给企业和政府都带来了巨大的挑战。网络大数据在规模与复杂度上的快速增长对现有IT架构的处理和计算能力提出了挑战,给数据的收集、处理、分析带来了变革,使得统计学面临紧迫感。迅速发展的互联网,留下了人们大量的数据足迹,造成了个人隐私信息的泄露。对个人隐私等的侵犯引发了大数据时代的安全问题,数据犯罪也成为亟待解决的问题。
大数据时代统计学上的挑战
非结构化数据的收集存储与分析
迅速产生的海量数据,价值密度低且复杂度高,其中75%以上为半结构化或非结构化数据。过去处理的数据对象都是有结构的,使用关系数据库存储。但随着社交网络、移动计算和传感器等技术的发展,数据生成的方式更加多样化,非结构化数据占据了大数据的绝大部分。非结构化数据当中蕴含着丰富的知识,可能是多学科领域、多源的混合数据。但其也给数据分析与挖掘工作带来了更大的挑战。非结构化数据涉及各种数据类型,包括文本、XML、 HTML、图形、音视频等。非结构化数据具有异构和可变的性质,结构不规则或不完整,没有预定义的数据模型,无法用传统数据库的二维逻辑表来表现。非结构性数据中包含更多的无用信息,使得数据的存储分析与挖掘更困难,提取有价值信息的成本上升。
大数据带来的虚假知识
大数据是具有多源异构性的、覆盖不同范围的数据。大数据的来源丰富多样,在获取时存在抽样偏倚、有意无意的错误、偶然或系统的误差。数据收集的标准与分析和决策的准则不同,有些数据不是原始数据,而是基于现有原始数据的推断,这些数据的反复使用会放大偏差,造成数据价值降低。海量数据本身数量多而价值密度低,而处理数据噪音的技术尚不成熟,大比例的含偏差数据将破坏信息的真实性。如此,正确处理的大数据也可能得到错误结论和虚假知识。[2]
在大数据环境下,数据的收集、建模和使用模型往往由不同的人进行,他们可能并不清楚数据下一步将如何使用或者从何而来。当这些环节中的人依照自身经验有偏颇地解释模型,而偏离了原始数据所涵盖的信息范围,数据在传播过程中就失去了它的真实性。在获取的数据时局限于获取样本的途径,也可能存在选择偏倚,研究样本并不能代表研究总体。
不同学科领域有可能存在对同一现象或物质的研究,但是他们关注的角度不同,收集方法不同,造成所得的具有重叠变量的数据集合,解释的领域不同、具有不同背景的意义。数据自身携带的信息是有界限的,这就使得数据分析的结果是有适用范围的。根据模型外延数据的信息,做出超出其本身的判断,其实毫无意义。
大数据时代的隐私泄露问题
生活中网络和传感器是产生大数据的主要来源,包括浏览器cookies记录的用户上网浏览的足迹、社交平台上用户的通信方式和交流记录、传感器数据等。这些数据足迹具有累积性和关联性,将聚集的多重数据进行分析,就足以挖掘出个人的隐私信息。如果有意窃取利用这些信息进行欺诈等数据犯罪行为,将会给个人的生活带来损失。
大数据时代,人们对便利性的需求越来越高,各类通讯、导航和传感设备的位置感知技术更加深入。这些设备中的传感芯片通过不同的方式获取使用者的位置信息:比如,移动通讯设备、导航等设备中内置的GPS定位系统可以直接抓取移动对象的活动数据,甚至通过各种途径发布这些轨迹;另外,传感设备例如手环、iWatch这类可穿戴设备,通过物联网记录的数据也隐含了使用者精确的地理位置信息。[3]
近七成的应用软件都会抓取用户的位置信息,在首次打开软件时要求用户授权允许应用软件从后台提取当前的地理位置。为了保护自己的位置隐私,可以将权限改为永不或使用期间,避免发送含位置信息的图片到社交网络。
2016年4月,土耳其爆发重大数据泄露事件,近五千万土耳其公民的个人信息遭到窃取,其中包括姓名、身份证号、家庭住址等敏感信息。还有轰动一时的美国“棱镜”计划。信息隐私的频频泄露,引起人们的信息安全恐慌,暴露了目前数据信息的监管力度不强,隐私保护缺乏技术支持,监管体系不健全,监管制度极不完善甚至缺失等各方面的问题。
大数据时代国际关系的新挑战
业界普遍认为随着大数据时代的来临,第三次世界大战,将是一场基于互联网、云计算的数据之战。概括而言,大数据在国际关中扮演着越来越重要角色:大数据的价值成为衡量国际竞争力的一个标准;大数据是国家行使信息主权的基础;大数据的预测性功能对于国家安全有重要意义。
大数据蕴含着丰富的政治经济文化社会信息,大数据作为信息载体,一个国家的科技发展、社会动向、经济浮动、军事行动、国家安全与威胁等信息皆可由大数据传递出来。数据主权将会作为国家主权的重要组成部分,对各国具有战略性的意义。[4]
各国必须警惕国际社会中的数据霸权主义。美国在信息科技方面具有灵敏的嗅觉,试图保持自身在大数据领域的优势,掌握大数据相关技术的主导权。强大的搜索引擎如谷歌、必应皆来自美国,这些搜索引擎几乎占据了全球市场。如此,全球范围的海量数据,都纷纷流向美国。2013年,前中情局职员爱德华·斯诺顿曝光了美国的“棱镜”项目。该项目自2007年启动,美国国家安全局和联邦调查局通过微软等九大数据服务商监听包含通信记录、电子邮件等隐私数据。监听对象涵盖美国公民和所有在全球范围内与美国公民进行通讯交流的客户。该事件曝光后全球一片哗然,进发了数据安全恐慌。在大数据时代,全知就意味着全能,收集、拥有更多的数据,就会在数据战争中占据主动。美国意欲何為,昭然若揭。
总结
大数据时代的来临,是任何人不可阻挡的潮流。在巨大的经济效益和商业价值之下,仍隐藏着许多挑战。由于大数据本身的特点,带给统计学意义上的技术挑战,在未来研究人员也将攻坚克难,不断发展大数据技术。国际关系当中,各国需警惕大数据可能带来的数据霸权的威胁,并需要在此问题上达成互利平等的共识,以维系国际关系中平等、合作的原则。另外,信息隐私的泄露危机是大数据应运而生的副产品,大数据时代给人们带来了隐私透明的安全威胁。本文总结了大数据时代面临的严峻挑战,大数据技术仍有待完善领域但具备极大的发展潜力,期望学者能以此为参考为大数据未来提出有效的应对策略。
参考文献:
[1]刘雅辉,张铁赢,靳小龙,程学旗.大数据时代的个人隐私保护[J].计算机研究与发展,2015,52(1):229-247.
[2]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014,31(01):5-9.
[3]王璐,孟小峰.位置大数据隐私保护研究综述[J].软件学报,2014,25(4):693-712.
[4]蔡翠红.国际关系中的大数据变革及其挑战[J].世界经济与政治,2014(5):124-143,159-160.
[作者简介]孙睿(1997-),女,山东泰安人,山东师范大学管理科学与工程学院,研究方向:大数据分析。
[关键词]大数据;挑战;隐私安全;国际关系
[DOI] 10.13939/j.cnki.zgsc.2018.26
大数据综述
维克托·迈尔-舍恩伯格在《大数据时代》中称:“大数据指不用随机分析法这样的捷径,而采用所有数据进行分析处理。”近年来,大数据不断改变着人们的生活,为企业注入新的机遇。大数据的价值不单单局限于表面的运用,更多源于它的二次利用,各大企业不断聚类、挖掘和分析,以提取有价值的信息,提高企业竞争力。因此,数据将会是企业的财富、重要的开发方向和新型商业模式的基石。[1]
在带来机遇的同时,大数据给企业和政府都带来了巨大的挑战。网络大数据在规模与复杂度上的快速增长对现有IT架构的处理和计算能力提出了挑战,给数据的收集、处理、分析带来了变革,使得统计学面临紧迫感。迅速发展的互联网,留下了人们大量的数据足迹,造成了个人隐私信息的泄露。对个人隐私等的侵犯引发了大数据时代的安全问题,数据犯罪也成为亟待解决的问题。
大数据时代统计学上的挑战
非结构化数据的收集存储与分析
迅速产生的海量数据,价值密度低且复杂度高,其中75%以上为半结构化或非结构化数据。过去处理的数据对象都是有结构的,使用关系数据库存储。但随着社交网络、移动计算和传感器等技术的发展,数据生成的方式更加多样化,非结构化数据占据了大数据的绝大部分。非结构化数据当中蕴含着丰富的知识,可能是多学科领域、多源的混合数据。但其也给数据分析与挖掘工作带来了更大的挑战。非结构化数据涉及各种数据类型,包括文本、XML、 HTML、图形、音视频等。非结构化数据具有异构和可变的性质,结构不规则或不完整,没有预定义的数据模型,无法用传统数据库的二维逻辑表来表现。非结构性数据中包含更多的无用信息,使得数据的存储分析与挖掘更困难,提取有价值信息的成本上升。
大数据带来的虚假知识
大数据是具有多源异构性的、覆盖不同范围的数据。大数据的来源丰富多样,在获取时存在抽样偏倚、有意无意的错误、偶然或系统的误差。数据收集的标准与分析和决策的准则不同,有些数据不是原始数据,而是基于现有原始数据的推断,这些数据的反复使用会放大偏差,造成数据价值降低。海量数据本身数量多而价值密度低,而处理数据噪音的技术尚不成熟,大比例的含偏差数据将破坏信息的真实性。如此,正确处理的大数据也可能得到错误结论和虚假知识。[2]
在大数据环境下,数据的收集、建模和使用模型往往由不同的人进行,他们可能并不清楚数据下一步将如何使用或者从何而来。当这些环节中的人依照自身经验有偏颇地解释模型,而偏离了原始数据所涵盖的信息范围,数据在传播过程中就失去了它的真实性。在获取的数据时局限于获取样本的途径,也可能存在选择偏倚,研究样本并不能代表研究总体。
不同学科领域有可能存在对同一现象或物质的研究,但是他们关注的角度不同,收集方法不同,造成所得的具有重叠变量的数据集合,解释的领域不同、具有不同背景的意义。数据自身携带的信息是有界限的,这就使得数据分析的结果是有适用范围的。根据模型外延数据的信息,做出超出其本身的判断,其实毫无意义。
大数据时代的隐私泄露问题
生活中网络和传感器是产生大数据的主要来源,包括浏览器cookies记录的用户上网浏览的足迹、社交平台上用户的通信方式和交流记录、传感器数据等。这些数据足迹具有累积性和关联性,将聚集的多重数据进行分析,就足以挖掘出个人的隐私信息。如果有意窃取利用这些信息进行欺诈等数据犯罪行为,将会给个人的生活带来损失。
大数据时代,人们对便利性的需求越来越高,各类通讯、导航和传感设备的位置感知技术更加深入。这些设备中的传感芯片通过不同的方式获取使用者的位置信息:比如,移动通讯设备、导航等设备中内置的GPS定位系统可以直接抓取移动对象的活动数据,甚至通过各种途径发布这些轨迹;另外,传感设备例如手环、iWatch这类可穿戴设备,通过物联网记录的数据也隐含了使用者精确的地理位置信息。[3]
近七成的应用软件都会抓取用户的位置信息,在首次打开软件时要求用户授权允许应用软件从后台提取当前的地理位置。为了保护自己的位置隐私,可以将权限改为永不或使用期间,避免发送含位置信息的图片到社交网络。
2016年4月,土耳其爆发重大数据泄露事件,近五千万土耳其公民的个人信息遭到窃取,其中包括姓名、身份证号、家庭住址等敏感信息。还有轰动一时的美国“棱镜”计划。信息隐私的频频泄露,引起人们的信息安全恐慌,暴露了目前数据信息的监管力度不强,隐私保护缺乏技术支持,监管体系不健全,监管制度极不完善甚至缺失等各方面的问题。
大数据时代国际关系的新挑战
业界普遍认为随着大数据时代的来临,第三次世界大战,将是一场基于互联网、云计算的数据之战。概括而言,大数据在国际关中扮演着越来越重要角色:大数据的价值成为衡量国际竞争力的一个标准;大数据是国家行使信息主权的基础;大数据的预测性功能对于国家安全有重要意义。
大数据蕴含着丰富的政治经济文化社会信息,大数据作为信息载体,一个国家的科技发展、社会动向、经济浮动、军事行动、国家安全与威胁等信息皆可由大数据传递出来。数据主权将会作为国家主权的重要组成部分,对各国具有战略性的意义。[4]
各国必须警惕国际社会中的数据霸权主义。美国在信息科技方面具有灵敏的嗅觉,试图保持自身在大数据领域的优势,掌握大数据相关技术的主导权。强大的搜索引擎如谷歌、必应皆来自美国,这些搜索引擎几乎占据了全球市场。如此,全球范围的海量数据,都纷纷流向美国。2013年,前中情局职员爱德华·斯诺顿曝光了美国的“棱镜”项目。该项目自2007年启动,美国国家安全局和联邦调查局通过微软等九大数据服务商监听包含通信记录、电子邮件等隐私数据。监听对象涵盖美国公民和所有在全球范围内与美国公民进行通讯交流的客户。该事件曝光后全球一片哗然,进发了数据安全恐慌。在大数据时代,全知就意味着全能,收集、拥有更多的数据,就会在数据战争中占据主动。美国意欲何為,昭然若揭。
总结
大数据时代的来临,是任何人不可阻挡的潮流。在巨大的经济效益和商业价值之下,仍隐藏着许多挑战。由于大数据本身的特点,带给统计学意义上的技术挑战,在未来研究人员也将攻坚克难,不断发展大数据技术。国际关系当中,各国需警惕大数据可能带来的数据霸权的威胁,并需要在此问题上达成互利平等的共识,以维系国际关系中平等、合作的原则。另外,信息隐私的泄露危机是大数据应运而生的副产品,大数据时代给人们带来了隐私透明的安全威胁。本文总结了大数据时代面临的严峻挑战,大数据技术仍有待完善领域但具备极大的发展潜力,期望学者能以此为参考为大数据未来提出有效的应对策略。
参考文献:
[1]刘雅辉,张铁赢,靳小龙,程学旗.大数据时代的个人隐私保护[J].计算机研究与发展,2015,52(1):229-247.
[2]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014,31(01):5-9.
[3]王璐,孟小峰.位置大数据隐私保护研究综述[J].软件学报,2014,25(4):693-712.
[4]蔡翠红.国际关系中的大数据变革及其挑战[J].世界经济与政治,2014(5):124-143,159-160.
[作者简介]孙睿(1997-),女,山东泰安人,山东师范大学管理科学与工程学院,研究方向:大数据分析。