基于Hadoop平台的通信数据分布式查询算法的设计与实现

被引量 : 96次 | 上传用户:lamm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是信息的载体,随着信息化的不断发展,数据在现代社会生活中承担着越来越重要的角色。社会网络分析就是利用图论、数据挖掘等技术手段从社会网络数据集中寻找有用的信息。由于社会网络分析所处理的数据通常是很庞大的。因而对数据处理的能力要求很高。大规模通信社会网络数据分析与可视化系统是一个专门处理通信数据集的社会网络分析工具。它提供了社会网络分层扩展等一系列数据分析与可视化的基本操作。对于该系统来说,图的分层扩展涉及到在海量数据中进行查询,因而对数据查询效率有着很高的要求。采用传统的关系型数据库Oracle或SQL Server等虽然能够满足复杂条件的查询,但在处理TB级的大规模原始数据集时就显得力不从心。同时,在网络分层扩展时要用到广度优先搜索算法,需要在海量原始数据中进行遍历操作,这在关系数据库中的效率是很低的。以上情况就迫切需要我们解决数据查询和处理中存在的瓶颈。在分析了现有分布式存储系统与云计算平台的基础上,本文提出了一种基于Hadoop平台的分布式数据存储和查询改进方案。本文重点阐述了通信数据分布式存储与查询在Hadoop平台上的实现。据Hbase数据库的特色设计了通信社会网络数据模型。实现了基于Hbase数据库上的条件查询。并对设计好的数据模型进行了优化。最后在Hadoop数据服务平台上实现了面向软件客户端的数据访问服务。设计了适合通信社会网络数据特色的Map/Reduce算法。通过Map和Reduce函数实现了数据的并行查询和处理。在数据查询过程中,还将数据遍历过程放在Reduce函数中,从而使广度优先搜索算法的层次遍历过程也能够并行运行。这在很大程度上优化了数据查询和分层扩展的效率。通信数据分布式存储与查询方案在Hadoop平台上的成功实施具有很重要的意义。Hadoop平台只需要部署在普通的廉价PC机上即可运行,数据处理能力却很强,因此具有很高的现实意义与应用价值。
其他文献
目的探讨远隔肢体缺血后适应对急性脑梗死病人血清肿瘤坏死因子-α(TNF-α)的影响。方法选择2013年3月—2014年12月于我院接受治疗的286例急性脑梗死病人,按接受治疗时间分为72
区域性公共产品理论自诞生以来受到了国内外学者的广泛关注,并为区域经济合作与发展提供了理论依据。通过文献梳理,本文得出以下结论:一是当前关于区域性公共产品的内涵、分
医师是承担着防病治病、救死扶伤的一个特殊职业,医师的职业操守和医疗技术关系着芸芸众生、千家万户的幸福安康,乃至整个社会的安定与发展。医师素质的高低,学校的培养是基
<正>本文对单环刺螠(海肠)的生活习性、在运输过程中的注意事项、亲体在培育过程中最适宜环境因子和室内暂养条件等做了详细研究,为接下来单环刺螠的人工繁育和规模化苗种生
现年27岁的黄英,以一首『蝴蝶夫人』歌剧电影版成为第一位登上世界乐坛的亚裔女高音,纽约时报、Billboard 杂志纷纷大幅报道这位当今乐坛最受瞩目的焦点人物。甜美的外形,晶
为促进番茄红素在保健食品中的应用 ,对番茄红素的抗氧化和抗肿瘤作用进行了论述。番茄红素是最主要的类胡萝卜素。几乎存在于所有的番茄和番茄类制品中。体外实验证明 ,在饮
脑利钠肽是一种神经激素,在脑血管疾病的病理生理过程中扮演着重要的角色。血浆脑利钠肽水平与缺血性脑卒中患者发病时间、严重程度、梗死部位和梗死体积有一定的相关性,在预
目的了解上海市副溶血性弧菌致集体性食物中毒的特征。方法收集整理2000-2007年上海市集体性食物中毒资料,对由副溶血性弧菌所致集体性食物中毒事件进行统计分析。结果8年间
依托泊苷(Etoposide,VP-16)是鬼臼毒素的半合成产物,是从小檗科鬼臼属植物的根中提取的一种具有抗肿瘤活性的天然有效成分,主要作用机制是抑制哺乳类动物DNA拓扑异构酶Ⅱ的活
本文通过对于经典和现代艺术家在创作中与“偶然”相碰撞的实例发现,对于训练有素的视觉个体,偶然已经成为常识,发现偶然已成为其本能。那么,如何让偶然性成为刺激创作神经的