大数据共享研究

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:TDM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:文章介绍了大数据及大数据共享的含义,详细介绍了实现大数据共享的硬件及软件条件。在硬件方面着重介绍了大数据中心的模块建设方式,在软件方面比较系统地介绍了大数据共享的相关技术手段等,对大数据相关立法和政策进行了讨论和展望,文章紧贴当下大数据的发展,在此基础上积极探索目前还尚未成熟的大数据共享领域。
  关键词:大数据;数据共享;平台
  1 大数据共享的含义
  1.1 大数据共享介绍
  大数据共享,是让不同地方使用不同计算机、不同软件的用户,即不同终端,按照一定的规定和安全共享机制,通过网络(局域网或互联网)等读取他人共享的数据并进行各种操作、运算、分析和管理的行为。从广义上理解,大数据共享在内容上不仅包含了海量数据的共享,还涉及到大数据软件程序、大数据科学和工程系统及大数据的应用实践等内容。数据开放利用程度越高,信息知识作为生产要素就会越高。
  1.2 大数据共享的意义
  大数据共享,涉及大数据技术及大数据应用,在实际应用上大数据共享具体体现在海量数据的共享、大数据平台的共享、大数据技术的共享和大数据应用共享。大数据共享的特点,也更合理地体现了大数据自身的重要价值。大数据共享使得不同层次、不同部门信息系统更加合理地进行资源配置、节约社会成本、创造更多价值,不仅能提高信息资源利用率,避免在信息采集、存贮和管理上的重复浪费,有利于更合理安排物力和财力,发挥人的更大价值。从发展上看,工信部电信研究院政经所马志刚认为数据开放与共享是提高社会生产力的重要前提,这里所探讨的大数据共享也更清晰地把数据共享这项发展性的工作落到实处。
  2 大数据共享的软实力建设
  大数据共享软实力包含大数据共享平台架构之Hadoop技术、流计算、数据仓库、信息整合、大数据搜索引擎、大数据可视化、大数据应用程序开发、管理系统和共享安全机制等。
  2.1 大数据共享平台架构之Hadoop技术
  Hadoop是Apache基金会开发的一个开源分布式系统基础架构项目, Hadoop主要核心由HDFS、MapReduce组成,包含HBase和Hive等经典子项目。Hadoop底部利用分布式存储系统(HDFS)将文件分布式存储到硬盘,上部MapReduce将大的数据分成小块逐个分析,再提取出数据汇总分析,编写简单的需求命令获得所需数据内容。
  2.2 流计算
  流计算面对的是存贮在硬盘、内存或者其他地方的已存数据。流计算是指数据和控制在一个分布式网络中以某种流的形式传递,网络中的节点对流进行处理和分发,同时这些流往往具有高实时和高流量的特点,再形象化一点描述就是在数据产生并流入系统时就进行处理并马上得出结果。因而区别于以往基于RPC和RMI的分布式系统,也区别于Hadoop的相对静态的处理系统。流计算面对的是没有存储下来的实时的网路数据流,计算意义在于对数据挖掘处理后选取可以提取有价值的信息存储下来,不会对原始数据进行存储,并且数据流的价值随时间流逝而降低。基于实时数据的流处理是大数据发展到现在已经相对成熟的技术。
  2.3 数据仓库
  有关大数据的共享,必须依赖一定硬件条件,这里引入数据仓库的概念,数据仓库是一个集成的、面向主题的、随时间变化、非易失的数据集合。数据仓库区别于数据库,数据仓库相当于一个环境,为用户提供用于决策支持的非结构化和半结构化的当前或历史数据(传统的操作型数据库中很难或无法得到)组成数据仓库系统的要素简单概括为数据仓库式数据库、数据载入工具、数据抽取工具、信息发布系统、操作型数据、外界数据、访问工具、数据集市、操纵平台、元数据及管理平台。
  2.4 信息整合
  信息整合,是指通过逻辑或者物理的方式把某一范围内多元的、异构的、离散的、分布的信息资源,组为一个整体,使其有利于管理、利用和服务。信息整合包含三种方式,分别是数据整合、过程整合及内容整合。内容整合通过建立一个内容管理平台,进而对图片、多媒体等非结构化信息进行编辑、审核、校验以及分类管理,这样就可以控制信息发布和与访问的权限。数据整合将有价值的数据传递给分析系统或其他应用系统,再进行信息加工,集合不同的核心业务数据库为一个单一的数据库。
  2.5 大数据搜索引擎
  大数据搜索引擎基于大数据库,需要具备在大数据共享分析中充分发挥人工智能作用的软件技术能力,采用网页抓取技术智能地从互联网搜集信息,通过对结构化的数据、图表及视频等非结构化数据和半结构化数据进行检索,搜索引擎借助Reduce等工具,将数据聚合并采取并行处理,供给用户,构建搜索引擎服务。排序是搜索引擎最关键的技术,排序策略和算法决定了排序效果的优劣,其中搜索结果的排序作用重要,利用关键词在文档中出现的频率和位置以及基于链接分析排序等排序。
  2.6 大数据可视化
  大数据可视化主要是将收集、存储的海量数据信息通过图形化等数据视觉表现形式进行清晰、有效的信息传递,在大数据共享中既属于科学技术应用,也属于科学技术研究,可视化硬件包含图形工作站及超级可视化计算机。可视化软件分3层,分别是操作系统层﹑可视化软件工具开发层及行业性可视化软件应用层。
  2.7 大数据应用程序开发
  大数据应用程序是指添加、查看、修改和删除数据仓库指定数据库中数据的应用程序。大数据仓库应用程序一般包括3个部分:一是为应用程序提供数据的数据仓库;二是实现与用户交互的前台界面;三是实现具体业务的软件。
  2.8 大数据共享的管理系统
  大数据共享的管理系统是大数据共享系统的关键系统之一。通过大数据共享管理系统,可以方便管理者实现对共享资源的管理、共享关系的管理及共享行为的管理。其中,共享资源管理包括6类,分别是共享集群命名管理、共享系统模板管理、共享节点资源管理、共享应用命名管理、共享应用资源管理、共享用户状态等。
  3 结语
  本文主要描述大数据共享的平台软实力构造,从一个系统化角度去阐述大数据共享的技术需求,为大数据共享产业的运作提供了一种建模参考,关于大数据共享的安全保密和法规政策的研究也会在以后进一步讨论,本文为大数据共享领域的基础性发展抛砖引玉。
  [参考文献]
  [1]马建光,姜巍.大数据的概念、特征及其应用[J].国防科技,2013(2):18-20.
  [2]周枫.大数据时代档案馆的特征及发展策略[J].档案与建设,2013(8):25-40.
  [3]宋永刚.大数据时代加快出版业转型升级的思考[J].中国编辑,2013(5):20-22.
  [4]张春磊,杨小牛.大数据分析(BDA)及其在情报领域的应用[J].中国电子科学研究院学报,2013(1):10-15.
  [5]李晨晖,崔建明,陈超泉.大数据知识服务平台构建关键技术研究[J].情报资料工作,2013(2):9-13.
  [6]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011(10):3-15.
  Study on Big Data Sharing
  Wei Cuihong
  (91746 PLA Troops, Beijing 102206, China)
  Abstract: This paper analyzes the implement of big data sharing software conditions, actively explore it is not yet mature field of big data sharing, systematically introduces the large data sharing technology, this paper introduces the system, so to speak, science, maneuverability.
  Key words: big data; data sharing; platform
其他文献
如何实现移动目标被其他物体遮挡后,预测其所处位置,并能够实现遮挡结束后恢复目标的跟踪是视频目标检测与跟踪研究方面的一个热点问题。文章将Kalman滤波器对目标位置估计能
2006年5月14日,据《华尔街日报》在线报道,波音同意向联邦政府支付6.15亿美元;以求与联邦调查组就合同丑闻事宜达成和解。在美国历史上至今还没有哪家军火公司因为行为不当,被处以如此高额的罚款。  司法部发言人透露,这还只是个试探性协议,如果波音执行不力,或者再出什么乱子,司法将对波音处以更严厉的惩罚。  在这个试探性协议中,罚款分成两部分,其中5.65亿美元为解决民事诉讼,5000万美元为犯罪
文章分析了东亚区域经济合作的现状,指出中日韩三国应在东亚区域经济合作中发挥更大的作用,并提出了建立中日韩自由贸易的路径。
“我们最不缺的就是战略!”但中国企业战略规划能力薄弱使得战略品质不尽如人意。企业家的战略意识已经觉醒,但战略素养并不高,既缺乏战略思维的穿透力,又缺少精练概括的表达力    倒回去10年,中国的企业领导人并不以“没有战略”而为耻,他们会为“没有抓住机会”而懊悔不已。但如今,一个宏伟的愿景加上一个漂亮的战略,已经成为中国企业领导人烫金的名片。好像没有战略就不能称之为企业家,而是商人。就像武士没有佩剑
今年4月,《财富》杂志又照例推出其2006版美国500强,虽然与原来的500强并无本质不同,但也不是简单地根据2005年的表现而重新排位。毕竟,新的一年,500强席位上有出有入。
MercExchange是美国维吉尼亚州一家无名小卒,但这几年它通过与网络拍卖巨头eBay打官司而变得相当有名。
期刊
凯雷将持股比例由85%降至50%,但新方案能否通过审批仍难预料    2006年lO月16日,沪深股市盘中出现震荡,而收购事项一直悬而未决的徐工科技(SZ 000425)却逆势放量涨停。当晚便有消息传出,凯雷投资与徐工集团已经修改了此前达成的协议,降低了前者的持股比例。  停牌一日后,徐工科技18日发布简短公告,徐工集团、凯雷徐工、徐工机械(徐工科技的直接控股股东)三方于签署修订协议,据此凯雷徐工
本文阐述了菜园子沟铜矿的地质概况、地球化学特征、地球物理特征、矿体地质特征、矿床成因以及找矿标志。
因为对茶叶市场进行了细分,李映峰抓住了人们对养生茶的需求,从而扩大了消费群体,一举打开了茶叶的销售局面。
刚刚过去的2005年,堪称国际知名品牌的中国危机年。  2005年的2月18日,当亨氏的苏丹红一号事件正式见诸报端时,很多消费者还都有个案的感觉,但接下来,事情急转直下。  肯德基、强生婴儿油、杜邦特富龙、立顿速溶茶、宝洁SK-Ⅱ、芬必得、卡夫食品、阿斯里康、哈根达斯、高露洁、佳洁士,一直到临近年底的雀巢奶粉事件,一个个深得中国消费者信任的国际品牌,像骨牌效应一样,接连在消费者心中倒下,为品牌危机