在云环境下的数据挖掘算法的并行化研究

来源 :电子科技大学 | 被引量 : 30次 | 上传用户:jizhe621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术特别是网络技术的发展,人们开始面临海量并且急速增长的数据,如何从这些数据中获取相关知识为人类的生活、科研和生产服务己经成为一个严峻的问题。解决这个问题将要用到一门综合的学科:数据挖掘。数据挖掘是融合了计算机科学、数学和统计学等多门学科的一门综合学科。数据挖掘是一个具有现实和学术意义的研究方向。传统数据挖掘算法及其改进算法多是运行在单机上,并且使用的是串行运算。比如Apriori算法和K-means算法都是运行在单节点上的,当他们对海量数据进行处理时,由于单机的资源(如CPU、RAM等)有限不能高效的完成数据挖掘任务。为了提高数据挖掘算法对海量数据的处理能力,最好能将待处理的数据存放在多个节点上处理,这样就能利用多台机器的资源高效的完成数据挖掘任务。本文通过研究前人在数据挖掘方面取得的成果,对Apriori算法和K-means算法做了修改,克服了己有算法在逻辑上的一些缺陷,提出了新的关联规则算法MC_Apriori算法和新的聚类分析算法CK算法。本文主要对以下内容进行研究:(1)对传统的Apriori算法和K-means算法进行了解和说明,分析了传统算法存在的缺陷,并研究了现有的一些改进算法。(2)对云计算技术的发展和相关技术进行研究,分析了两个云计算平台(Hadoop和Spark)的并行计算能力,并研究了其在数据挖掘领域的一些应用。(3)针对Apriori算法存在对事务数据库多次扫描和候选集过大的问题,本文提出了改进算法MC_Apriori,该算法引入了Boolean矩阵和事务权值。将K-候选集的支持度计算变成向量运算,不需要多次对事务数据库全扫描,对于重复事务使用权值对其去重,这样就可以对矩阵进行压缩,减少向量运算的计算量。(4)针对K-means算法存在初始聚类中心点随机性和K值定义的问题,本文提出了改进算法CK,该算法引入了Canopy算法,将Canopy算法应用到K-means算法中,先使用Canopy算法来对聚类数据快速聚类,然后在此基础上对每个Canopy中的数据使用K-means算法进行迭代聚类。(5)将MC_Apriori算法和CK算法和两个优秀的云计算平台(Hadoop和Spark)结合,实现改进算法的并行化,提高改进算法在云环境下的应用能力。
其他文献
本文以周作人、顾颉刚、娄子匡、钟敬文和费孝通等大家为例,对民俗田野作业中普遍存在的调查者选择自己的家乡为调查点的现象作出思考和整体把握,认为民俗田野作业中存在“还
目的探讨维吾尔族慢性牙周炎与糖代谢异常的相关性,为临床治疗及卫生防预提供指导。方法采用分层容量随机抽样方法从墨玉县364村抽取15个村18岁以上维吾尔族成人1650人,进行
行政管理法制化是国家认定和认可的、用以规定国家行政机关组织、职责、行为以及监督、调整国家行政机关在行使行政权力、执行国家公务过程中所形成的各种社会关系的法律规范
伴随改革开放进程的不断深入,市场环境的进一步优化,中国的保险行业也经历了跨越式的大发展,无论是我国保险公司的保费收入水平还是险种开发程度,都在发生着日新月异的变化。另外
[目的]通过检测整合素β1在声带息肉及正常声带组织中的表达及分布情况,探讨整合素β1在声带息肉发生、发展过程中的作用,进一步研究声带息肉的发病机理,为临床防治该疾病提
一个企业青年人才队伍建设的好坏不仅影响着整个人才队伍建设的好坏,更直接关系到该企业未来人才竞争力的强弱,是确保企业发展拥有可持续的人才竞争优势的重要因素。而青年员工
农民工为我国的经济建设做出了巨大的贡献,数量庞大的农民工群体不仅推动了城镇化的快速发展,而且也带动了农村经济的繁荣,然而他们的合法权益在现实生活中却被忽视甚至被侵
近年来,能源危机、生态破坏和人口拥挤等问题日益凸显,世界各国都着力开发可再生能源。随着风力发电技术的发展,其发电质量与装机容量都在不断增高。但是,由于风能的间歇性和不稳
目的了解新疆医科大学幼教中心学龄前儿童膳食营养与身体发育状况。方法采取整群抽样法抽取新疆医科大学幼教中心学龄前儿童203名,采用称重法和记帐法相结合的方法进行膳食调
目的了解小儿闭塞性毛细支气管炎的临床特点及疗效。方法对14例闭塞性毛细支气管炎患儿的临床特点、肺部影像学、肺功能、治疗和预后进行回顾性分析。结果 14例闭塞性毛细支