基于密度和距离的K-means算法研究与应用

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:XU739603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是在大数据集上的探索并揭示其隐含规律的一种计算过程,它融合了众多的技术,是计算机科学的重要分支。其中聚类分析是数据挖掘中重要的分析技术之一,聚类分析是按照相似度进行划分的,将本身没有类别的数据样本划分成不同的簇。本文选取的是K-means算法进行研究,它是数据挖掘中最基本的聚类算法。该算法的优点是执行简单、操作方便,但是也存在着诸多的缺点,比如:聚类形成的簇数K是由用户指定;初始聚类中心是随机选取的;该算法只能发现类球状的簇等。本文的工作主要分为以下三个方面:首先在K-means算法的理论研究上,一方面,剔除了影响聚类结果的孤立点和对初始聚类中心选取进行了改进。另一方面,在确定了初始聚类中心后,把数据点合理地分配到各个簇中;其次为了能对海量数据进行处理,把改进算法在Spark平台上进行了实现;最后本文将改进算法应用到了移动客户细分中。实验证明,改进后的K-means算法比传统K-means算法的聚类结果更加准确。本文借助Spark平台对改进算法进行并行化实现,从而能够在不影响准确度的情况下减少算法执行的时间。通过对细分变量的选择,把采集到的移动客户数据根据相似性划分成不同的类别,能够帮助移动数据信息分析人员对不同的客户群采取不同的营销策略。
其他文献
<正>漫画,因其形象、生动、诙谐、幽默的特性,很符合初中生的思维特点,深得初中生的喜爱。如果把漫画运用到初中历史教学中必能发挥它独特的魅力。因此,如何根据教材内容、准
在应对气候变化和能源安全的大背景下,能源国际合作和竞争都是国际体系内的突出现象。2012年以来,中国的风电和光伏产业连续遭受欧美反倾销等制裁。新能源领域逐渐成为中美经
作为恶性杂草之一,田旋花具有极强的环境适应能力及强大的繁殖和再生能力,在我国三大棉区广泛分布,严重危害棉田生态系统。本文概述了目前国内外在田旋花的形态特性、分类学
张悦然是"80后"作家中最富文学禀赋的写手,其语言充满了"梦呓"的色彩,在充满张力的故事构造中展开少女的青春梦想。《誓鸟》作为一部想象力极为丰富的作品,表达了经典的主题,
本文通过对《Vista看天下》财经专栏进行分析,指出一方面,《Vista看天下》的财经专栏迎合市场,另一方面仍然尊重事实,坚持专业主义。本文指出,财经专栏选材不拘一格,除去专业
<正>灌南县花园小学始建于1983年。近年来,花园小学先后荣获县"教学质量先进集体"、"学校综合评估先进集体"、"学校安全工作先进集体"等荣誉,成功进行了"省市平安校园"、"省
移动互联网广告行业市场发展迅速,竞争激烈,各种新技术、新营销模式层出不穷。如何在这种市场环境下确保公司主营业务的竞争力是移动互联网广告公司面临的一个重要课题。YF公