K-means聚类算法研究及应用

被引量 : 0次 | 上传用户:ayczswh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类无论在商务领域,还是在生物学、Web文档分类、图像处理等其他领域都得到了有效的应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。k-means算法是聚类算法中主要算法之一,它是一种基于划分的聚类算法。本文在该算法的研究基础上,试图将该算法进行改进。同时在算法应用方面,将聚类技术用于客户细分方面,客户细分是企业能够进行有效客户管理的前提和依据,因此这方面的研究具有实际指导意义。本文第一部分,主要阐述所研究对象的背景资料以及本文所要达到的目的,并说明研究的思路和整体内容。第二部分,主要介绍聚类分析的基础知识和聚类分析的基本方法,分析现有的不同算法,相互比较得出各个算法的优缺点。分析了基于划分的典型算法K-means算法,对其优点和缺点进行了详细的分析。第三部分为本文的应用部分,将聚类技术应用于客户细分,通过层次分析法建立客户的价值体系,量化客户价值;在此基础上应用聚类技术,将客户划分成不同的类,由此来有效的开展客户管理,具有一定的实际意义。目前已经有一些客户价值评价体系,但度量模型不够成熟。衡量指标一般是客户对于企业的直接利润贡献,定量上也存在一定的难度。本文运用数据挖掘的方法,从企业的实际情况出发,通过一系列可操作的客户价值评价指标,建立适合企业发展的客户价值评价模型,并由此来度量客户价值、细分客户,建立客户价值管理的决策支持系统。第四部分为本文的核心章节。主要对k-means算法进行了改进。改进的算法A有效的解决了算法对初始值K的依赖,能够自动生成类数K;同时该算法对初始中心点选取比较严格,各中心点的距离较远,这样避免了初始聚类中心会选到一个类上,一定程度上克服了算法限入局部最优状态。为能进一步提高算法的计算效率,提出了改进算法B,该算法结合了抽样技术和层次凝聚算法对原算法进行了改进,得到的新算法B更有效。最后,叙述了论文的主要工作,并指出进一步的研究方向。
其他文献
随着各国金融在自由化、国际化、市场一体化的发展,风险问题日渐突出。大量金融危机的事实证明,商业银行内部控制制度存在着严重的缺陷是诱发金融危机或银行破产倒闭的基础性
随着创意经济的崛起,创意园区作为一种新型的商务办公空间,越来越多地出现在中国的各大城市中。经过文献检索与调查,发现目前所刊行的理论著作中,很少有专门针对创意园区设计的理
本文初步研究了家庭处理方法对蔬菜、水果及粮食中毒死蜱和氯氟氰菊酯残留的去除效果,并联系两种农药的消解动态及不同地区人们的膳食结构,对两种农药进行了安全性比较。为人们
景观设计在现今社会受到越来越多的关注,它极大的改善、美化了环境。然而,作为一门庞大、复杂的综合性边缘学科,设计师对景观设计的更深层次的研究却显得步履维艰。特别是在社会
背景心力衰竭(Heart Failure)是严重威胁人类生命的主要疾病,也是多种心血管疾病的终末表现。在先进的介入、手术及药物治疗的干预下,使得心律失常、急性心肌梗死等急性期病人
目的:探讨彩色多普勒超声在膝关节炎疗效评估方面的应用价值。方法:2003-07/2004-02中山大学第三附属医院风湿科确诊为膝关节炎患者19例,在其肿痛膝关节内注射得宝松1mL(含二
目的检测基质金属蛋白酶-2(MMP-2)和基质金属蛋白酶-9(MMP-9)在不同大小人腹主动脉瘤(AAA)和破裂腹主动脉瘤(RAAA)组织中的表达情况,探讨MMP-2和MMP-9的细胞来源及二者在AAA发
向水样中接种已知量的脊髓灰质炎病毒,然后利用微孔滤膜吸附—洗脱法、滑石粉—硅藻土吸附层吸附—洗脱法、化学絮凝沉淀法和滑石粉—硅藻土絮凝沉淀法等4种不同的浓缩方法对
在分析井冈山风景名胜区的总体布局、旅游开发方向、旅游项目规划原则的基础上,提出了井冈山风景名胜区的旅游功能分区及近、中、远期旅游项目规划方案,并对旅游规划项目的时序
20世纪80年代以来,为了应对21世纪的国际竞争,世界各国纷纷掀起课程改革的热潮,我国的基础教育课程改革也在这种大背景下应运而生。根据《义务教育语文课程标准(实验)》的出台及