基于云计算的聚类挖掘算法及其应用研究

被引量 : 0次 | 上传用户:losches
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘根据大量事实的相关性发现描述数据的通用规则集,同时也通过训练和自学习发现隐藏在数据中的新模式。数据挖掘技术有很多种类,其中聚类分析是指依据数据彼此之间的相似性将其分类到不同的类或簇的过程,在同一个簇中的对象彼此之间非常相似,而不同簇间的对象之间具有较高的相异性。随着现代科技的飞速发展,各种业务应用带来了数据全新的变革,数据量爆炸式的增长使得传统的数据挖掘算法无法再胜任如今的数据挖掘任务。新兴的计算模式云计算是分布处理、并行处理和网格计算的综合发展,它以大量的普通硬件构建计算机集群,将计算任务分布在集群上并行执行以实现强大的计算能力。它从分布式存储和分布式计算两个角度带来了对数据全新的处理方式,是如今处理大数据集的有效方法。本文基于云计算技术,以数据挖掘的聚类分析为切入点,寻求应对大数据集聚类挖掘的新方法。针对经典聚类挖掘K-medoids算法的不足,提出了其改进算法:基于统计中心点密度的SCDK-medoids算法和基于相对距离预聚类的RDPK-medoids算法。并将SCDK-medoids算法与网格划分思想相结合实现真正的并行化设计,同时也对RDPK-medoids算法实现中最耗时的部分做了基于Hadoop的并行设计,最终形成了基于云计算的面向大数据集的聚类挖掘算法的新的实现方案。为了验证所提出算法的性能,对原K-medoids算法进行了基于Hadoop的并行化设计,并设计了Hadoop完全分布状态下的仿真实验。实验结果表明,并行化SCDK-medoids算法和并行化RDPK-medoids算法表现出较好的聚类精度和运行速度,能够适用于大数据集的聚类挖掘。本文还将并行化SCDK-medoids算法应用于出租车推送服务中,通过实际应用说明所提出的算法在社会网络社区划分及推送服务中的可用性。
其他文献
在日常生活中,我们是通过使用语言起到传达信息、交流思想和情感目的的,在各种语言中视觉语言尤为重要。在跨学科的视域下对视觉语言进行学术性的探究是本文的主题,世界是由
近年来,公司职工侵占公司财物,后以其所侵占的公司财物索要公司欠款的行为日益受到人们关注,理论界和实务界对这类案件的定性存在很大争议,对于“公司职工侵占公司财务”的行为,有
本文研究公募证券投资基金退市制度。全文共分五部分:第一部分,公募证券投资基金退市制度的一般理论。该部分简单介绍证券投资基金的市场退出与基金退市之间的关系、基金退市的
周杰伦流行歌曲中融汇了诸多的西方式通俗音乐元素中国传统的音乐元素,在其说唱化、嘻哈化的表象之下,则是对于传统民族音乐文化精神的追寻与回归。目前,学界对于周杰伦流行
企业的创新活动中,员工创新个体层面的创新是关键。已有的研究表明,领导风格会极大的影响员工的创新行为,心理资本作为个体在成长和发展过程中表现出来的一种积极心理状态,可以揭
改革开放以来,我国国有企业经历了一个快速的成长期,但是国有企业固有的一些弊端制约了企业的快速发展,其中关键的因素之一就是绩效得不到有效的发挥,从而使得人力资源的潜能
健康产业被认为是21世纪最具发展潜力的产业。随着经济发展和社会进步,各个阶层都更加关注个人和家庭健康。每年一次的体检,已不能够满足个人健康保障的需要。因此,利用物联
面对国家电力体制的不断改进,面对以往的电网运行管理模式早已不适合目前的智能电网的发展成长,为了符合并加强电网前进的发展方向,我们迫切的需要一种完全的、符合当前电网
肝癌是恶性程度极高,预后极差的恶性肿瘤。全世界半数左右的肝癌患者集中在中国,我国每年约有30万人死于肝癌,居恶性肿瘤病死率的第二位。虽然目前对肝癌发生的危险因素了解
在播音主持的过程中,要对文稿进行“再度创作”,要让自己播音主持的节目具有一定的“生命力”,才能增强节目的可看可听性。而想让节目充满灵性并赢得受众的青睐,就必须要让节目具