云计算及若干数据挖掘算法的MapReduce化研究

被引量 : 0次 | 上传用户:ytdpg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算是2008年以来国际IT业热炒的概念,近两年来已开始在中国落地生根,是业界不可回避和逆转的一大趋势。我们可以把云计算看作是分布处理、并行处理以及网格计算的发展,其中并发、分布是云计算的关键,海量数据处理和海量计算是云计算的重头戏。但是云计算本身只是一种思维模式,要真正发挥它的魔力,除了硬件以外,更重要的是还得有软件的云计算平台支撑以及可以在平台上高效运行的并行化程序。海量数据处理和海量计算是数据挖掘领域的一个常见问题,许多传统数据挖掘算法往往只能适用小规模输入数据,当输入数据增大时,它们往往会因计算量的增大而速度减慢甚至无法运行,这无疑是许多传统挖掘算法的瓶颈。云计算则恰好擅长处理大规模数据和大规模计算,如果我们能够将传统数据挖掘算法并行化,并将之部署到云计算平台上运行,数据挖掘领域中的上述瓶颈问题就能迎刃而解。而能否有效借助云计算平台解决上述问题,关键在于能否合理地将相应的数据挖掘算法并行化。所以本论文首先主要从分布式文件系统和分布式编程模式两大方向分析了Google、Sector/Sphere和Hadoop三大云计算平台框架;然后从用户角度出发,综合考虑文本内容、人类遗忘性和话题流行度等因素,提出了一种基于网络日志的中文热点话题提取算法,并将其MapReduce化后部署到Hadoop云计算平台上运行,取得了良好的加速比效果,成功地提高了算法的运行速度和扩大了算法输入数据的规模;最后通过分析传统协同过滤算法、局部线性回归算法和朴素贝叶斯算法的详细流程、瓶颈问题和可并行化点,采取并行和串行相结合的方式,提出了将这几大算法MapReduce化的方法,不但证明了这些算法的可MapReduce化,而且在输入大批量数据的Hadoop集群实验中,取得了不错的加速比效果,比较成功地解决了这些算法计算量过大和计算时间过长的难题。本论文的研究为数据挖掘领域相关算法提供了可行的MapReduce化方案,实验结果证明了上述方案的切实有效性。
其他文献
  分析了电镀废水的来源、特点和危害,介绍了当前常用的电镀废水处理技术。同时对螫合沉淀法和天然矿物污水处理剂在电镀废水治理方面的应用进行简单说明,并结合新的排放标准
<正>尽管中信打造的两款产品与真正意义上的REITs还有距离,但毕竟跨出了第一步。早在2003年的时候,原首创集团董事长刘晓光,全国工商联房地产商会会长聂梅生等房地产业界的人
射频技术的应用领域非常广阔。以移动通信为代表的民用无线通信技术极大地促进了人类通信方式的革新;以雷达技术为代表的军用无线通信技术更是广泛运用于国防的方方面面。无
目的通过观察外阴阴道念珠菌病患者外周血T淋巴细胞亚群水平的变化以及测定阴道分泌物中细胞因子IL-12、IL-4、IFN-γ的表达,探讨机体免疫在复发性外阴阴道念珠菌病发病机制
将红外测温系统(ITMS)应用于电器产品可触及表面温升的检测中,引入光学图像以增强红外图像的可视性,建立了一套电器产品的安全性能快速检测系统。分析了系统功能模块和系统构
艺术体操是融竞技与艺术为一体的一项女子竞技体操项目,具备竞技性的同时它又有对艺术性的强调,在竞技比赛领域里呈现出独特的艺术魅力。在艺术体操的技术中吸收了许多的舞蹈
鉴于现有路径规划方法难以兼顾路径质量与计算效率,采用改进的最小一致性算法,用于解决海洋环境下的自治式水下机器人(AUV)路径规划问题。首先,在传统最小一致性算法的基础上
目的:了解成人正畸患者的人格特征及分布特点,使正畸医生能够正确认识和把握患者心理,开展有效的医患沟通;了解成人正畸患者的人格特征与治疗依从性的关系,使正畸医生在临床上
网络文化是一把双刃剑,它的负面影响成为诱发青少年犯罪新的土壤。网络文化与我国民族文化冲突是诱发青少年犯罪的重要根源,网络文化诱发青少年犯罪的机制表现为:扭曲青少年
卫星通信是现代最重要的通信手段之一,它有通信距离远,宽频带,信息容量大,稳定性好等优点,广泛应用于军事、导航、移动通信等领域。目前使用最广泛,稳定性最好的是C波段的卫