基于划分的聚类算法的改进及其应用

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:fongyu061440
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘中非常热门的研究方向,是将数据集划分为不同的簇的过程,其目的是使同簇中的样本相异度较低,不同簇间的样本相异度较高。随着信息技术的快速发展与海量数据的产生,人们对聚类算法的效率、可靠性以及可扩展性的要求逐渐提高,使得海量数据聚类变得尤为重要。在众多聚类算法中,基于划分的K-means聚类算法因其原理简单、易操作,一直深受欢迎,但随着对算法的不断研究,其优缺点逐渐的暴露出来,本文主要研究在海量数据环境下K-means算法聚类性能的优化问题。从提高聚类算法准确率和效率的角度出发,本文对已有的基于划分的聚类算法进行了研究,主要解决了K-means算法中初始聚类中心点选取以及相异度函数对离群点、噪声敏感问题,并在此基础上,提出了基于MapReduce框架下的K-means聚类算法的改进。首先,针对K-means算法中的相异度函数是基于欧氏距离来计算的,对孤立点、离群点及其敏感,并易受噪声影响,尤其当数据量增多、属性类型复杂时,不能准确地计算出数据样本之间的相异程度问题。通过利用Chebychev Distance对欧氏距离进行内部加权,即用归一化思想来消除欧氏距离对噪声点和离群点敏感问题,使得数据对象能够更科学地划分到所属的聚类集中,进而给出了一种新的相异度公式。其次,通过改进MapReduce编程模型,把K-means算法部署在改进后的MapReduce编程模型并行化,在保证聚类质量的情况下加快K-means算法处理海量数据的速度。为验证改进算法的有效性,在UCI数据集上进行仿真实验,并与现有改进的K-means算法进行比较分析,实验结果表明:改进的算法提高了聚类的准确率和收敛速度。最后,将改进后的聚类算法应用到Uber和糖尿病数据集的分析中。对Uber出租车数据进行了聚类分析,帮助出租车司机把握城市需求状况,为用户提供更快捷的出行方式;对糖尿病患者的数据进行聚类预测,分析患者的各项指标,对患者是否存在糖尿病的风险进行了预测,说明了算法在医学数据分析方面具有良好的应用前景。
其他文献
某电力检修公司主营业务为电厂日常维护和大小修工作,检修业务类型涵盖了火力发电、LNG发电和光伏发电设备检修,属劳动密集型企业,经济类型为国有企业,组织机构上分公司本部
科学合理的学习小组,可以为学困生营造宽松愉悦的学习环境,提供给学困生的是充裕的练习时间和一对一的辅导。解决了学困生接受缓慢的学习困难,给了学困生更多学习和展示的空
目的评价复方鱼腥草滴丸治疗外感风热型急性咽炎、急性卡他性扁桃体炎的临床疗效和安全性。方法外感风热型急性咽炎患者36例和急性扁桃体炎患者36例,分别随机分为实验组和对
刑罚轻缓化已经成为世界刑事法治发展的必然趋势。而缓刑的广泛适用,恰恰是刑罚轻缓化的主要表现。本文通过对缓刑在青海省中级人民法院的具体实践的研究,发现在推行缓刑时存
By presenting a contrastive approach in teaching syntax to learners of Chinese/English as a foreign language via the aid of translation,the paper illustrates th
目的比较低温等离子消融术与传统手术方法治疗会厌囊肿的临床疗效。方法2012年7月~2014年1月收治的42例会厌囊肿患者,随机分为治疗组和对照组,均在全麻支撑喉镜引导下手术。
共同富裕是发展中国特色社会主义必须坚持的理想信念,是建设中国特色社会主义的必由之路。先富的人要带动整个社会的人走向共同富裕,反映了中国特色社会主义政治制度的目标。
政府长期以来积极推进企业创建安全生产标准化,不断改进旧的企业安全生产管理模式,促进企业安全生产标准化达标。文章通过分析企业安全生产托管、分类分级管理、标准化建设之
随着我国经济的高速发展,城市化进程的加快,城市污染、工业污染日益严重。目前我国经济建设中生态环境破坏问题突出,始终缺乏良好的解决办法。超标排污、排污、排气、排水、