基于虚拟机的Hadoop分布式聚类挖掘方法研究与应用

被引量 : 0次 | 上传用户:planet0371
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,各种网络应用产生的大量数据将我们带入大数据时代,为解决传统数据挖掘方法不能适应数据爆炸性增长的问题,人们不断研究新的方法,以从数据中获取有价值信息。作为一个开源的分布式框架,Hadoop被越来越多的商业应用所采用,并在不断地发展扩充,具有很高的研究和商用价值。借助其MapReduce编程模型,用户可以很方便地将自己开发的数据处理算法进行并行化,实现从只能处理小数据集的单机环境到可以处理GB级海量数据的飞跃,为具有并行特性的聚类挖掘方法提供了一个很好的扩展思路。为了提高Hadoop集群的稳定性,降低大量的节点失效对计算性能造成的影响,本文提出一种将虚拟机技术与Hadoop技术相结合的思路,以虚拟机为节点构造分布式的Hadoop系统。利用虚拟机可以集中管理、快速部署等优点,可以在虚拟机节点失效的时候快速启动新的节点继续挖掘任务;并能根据任务量的大小动态地调整虚拟机节点的数量,在避免计算资源的浪费的同时尽可能快地完成挖掘任务。本文在研究了各种数据挖掘算法的同时进行了Hadoop分布式框架的剖析,为能够在分布式系统上实现准确而高效的分布式计算,将k-means聚类算法进行了改进,通过属性加权来提高结果的正确分类率,同时提出一种基于数据密度的初始聚类中心选择算法,能够识别高密度典型数据,消除随机初始聚类中心对k-means计算稳定性的影响。对改进算法进行有效性测试以后,提出了并行化实现的方法。最后在以VMWare虚拟机为计算节点的Hadoop分布式系统下,部署了该并行化的MapReduce程序,实现了校园网上网行为的聚类分析,根据挖掘结果对校园网用户的收费系统提出了改进建议。这也为拥有或即将拥有自己的虚拟化平台的高校,提供在该平台上部署大数据应用,实现数据分析提供了一个参考。
其他文献
目的:评价点阵 CO2激光联合液氮冷冻治疗鸡眼的临床疗效。方法:85例鸡眼患者随机分为两组:治疗组43例,给予点阵 CO2激光联合液氮冷冻治疗;对照组42例,单用液氮冷冻治疗,10日1次,共治
近年来,民间金融的发展呈现出越来越活跃的态势。民间金融集中表现为民间借贷。民间借贷凭借其自身手续方便、成本低廉等优势有效缓解了公民个人、中小企业等在发展过程中遇
宗族文化的复兴是当代中国乡村出现的一个社会现象。宗族文化的复兴的原因主要有三个 :特定社会历史原因、经济活动中的互助与互利的需要、社会心理层面的归属感和认同感的需
桥梁建设的质量问题一直以来都受到业界的高度重视,本文主要围绕桥梁设计与施工过程中裂缝成因和控制进行分析研究。
由于现今数字化办公的高速发展,如今大部分行政、企事业单位一般都采用办公自动化系统来处理日常琐碎的事务,因此党政公文处理系统的运作效率非常大程度上决定了单位的办公自
在二十世纪社会变革的大背景下,简约化设计思想和现代集合居住体建筑成为了工业文明社会主流建筑思潮和社会经济文化发展中的重要媒介。尽管在二十世纪中后期世界各地陆续出
聚合物太阳电池由共轭聚合物给体和可溶性富勒烯衍生物受体的共混膜夹在ITO透光电极和金属电极之间所组成,具有结构简单、成本低、重量轻和可制成柔性器件等突出优点,近年来
微视频越来越多地融入到化学教学中,教师利用和整合现有的资源和条件,充分利用微视频的"互动性""娱乐性"和"共享性",灵活运用微视频组织教学,促进学生的自我调节,提高教学效
近年来,随着应用场合的多样化,电机设计的大功率密度,高可靠性和紧凑凑化越来越成为研究人员追求的目标。在这一发展过程中,人们却不得不面对这三者之间无法兼顾的窘境。而限