大数据平台中数据分析工具的设计与实现

被引量 : 0次 | 上传用户:huangys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来,各行各业保存和维护着规模越来越大的数据。大量数据的背后,隐藏着巨大的商业价值。相对于数据的增长速度,人们对于大数据的分析能力却无法满足要求,出现了数据存量很大,却仍然信息匮乏的窘境。在大数据分析方面,大规模数据的集成和挖掘是要面临的两大问题。传统的数据集成方法无法处理异构数据带来的语义冲突,同时随着数据量的增大,其效率会显著下降。传统的数据挖掘由于受单机处理性能的影响,在处理海量数据时效率太低。云计算平台的出现为解决这一现状提供了很好的思维和方法。本课题基于Hadoop平台,充分探究了传统的数据集成方案和数据挖掘算法在大数据处理方面的研究现状和不足,设计和实现了一个基于大数据平台的数据分析工具,从异构数据集成和海量数据分析两个方面来展开研究,主要工作如下:1)异构数据集成方面。将本体引入异构数据的集成过程中,利用局部本体和全局本体的映射来产生映射规则,并在映射规则的指导下完成异构数据的抽取、转换并加载到Hadoop平台的数据仓库Hive中。在局部本体构建过程中,通过将转换规则编码实现完成局部本体的自动构建。在本体映射过程中,采用综合的本体相似度计算方法来提高映射的准确性。2)数据挖掘与分析方面。将数据挖掘中聚类、分类以及关联规则等经典算法与Hadoop平台的MapReduce并行编程模型相结合,设计和实现数据挖掘算法的并行化,借助云平台强大的计算和存储能力来对数据仓库中的数据进行挖掘和分析,取得了较好的实验效果。本课题的方案能够在大数据平台中实现异构数据的集成和数据分析。将本体加入异构数据集成过程,提高了异构数据集成的准确性和效率,实现了集成的自动化,并通过与Hive的结合,能够高效处理海量数据。在Hadoop平台上利用MapReduce编程模型将数据挖掘算法并行化进行分布式计算,大大提高了数据挖掘方法在处理海量数据时的效率,具有较好的实用价值。
其他文献
我国《刑法修正案(八)》和2012年修订的《刑事诉讼法》规定了对特定对象刑罚的执行实现社区矫正,最高人民法院、最高人民检察院、公安部、司法部也于2012年1月制定并颁布了《
“微课”,或称之为“微课程”,是以微型教学视频为主要载体,针对某个学科知识点或教学环节而设计开发的一种情景化、可视化、支持多种学习方式的在线视频课程资源。相对于普通课
<正>传记片可看作测试一个国家电影文化水平的一个基准线,传记片水平高低,可鉴电影文化的不同成色。很少人把传记片当作一个电影类型,理由很简单因为传主即传记片主人公的个
<正>《乐满夏湾拿》是Wim Wenders 1998年拍摄的一部纪录片,赢了无数国际大奖,更重要的是让无数的人们,美国人、欧洲人和所有有幸看了这部片子的人们"发现"了奇妙迷人的古巴
本文通过对几种新型钴盐粘合剂在轮胎胎圈挂胶配方中的应用试验,研究其对胎圈挂胶配方的粘合性能以及轮胎成品综合性能的影响。
[目的]调查护理人员对实施医护一体化工作模式的认同程度。[方法]对全院42个临床科室实施医护一体化工作模式,采用问卷形式调查护理人员对该工作模式的认同程度。[结果]97.4%
介绍了难熔金属及其合金单晶的制备技术,对电子束悬浮区域熔炼技术和等离子弧熔炼技术进行了比较。电子束悬浮区域熔炼法温度梯度易于控制、材料不受坩埚材料污染,但熔体表面
尽管我国在金融市场变化中受到的影响较小,但经济增长速度已经有了明显下降,并且经济市场的发展也开始进入到了经济新常态,这必然会对中小企业的融资产生影响。为此,本文从中
综述了自我状态理论的概念、测量工具及其在护理领域的研究现状,探讨自我状态理论在护理理论研究和临床实践中的应用和发展趋势。
随着经济的发展与社会的进步,社会对于人才的需求不断地增加,对于人才的素质要求也不断地提高。语言表达能力作为十分重要的综合素质能力,直接影响着人际交往的质量,一直以来