【摘 要】
:
近几十年来,随着数据挖掘技术的飞速发展,其在表示数据过去的发展状况、预测数据未来的发展趋势、为商业和企业的决策提供支持信息的作用愈发重大。聚类分析是一种重要的数据
论文部分内容阅读
近几十年来,随着数据挖掘技术的飞速发展,其在表示数据过去的发展状况、预测数据未来的发展趋势、为商业和企业的决策提供支持信息的作用愈发重大。聚类分析是一种重要的数据挖掘方法,在诸多领域有着重要应用。而K均值算法更由于高效、快速的特点成为聚类算法中应用最广泛的一种。本文着重于解决K均值算法易受到初始点的影响以及容易收敛到局部极值的缺点,从而使得K均值得到更多、更广泛的应用。本文提出“类内距离比例”的方法,统计类内所有样本到类内其他样本点的平均距离小于类中心到其他类内样本的平均距离的数量,用此数量占据当前属于类的样本总数的比例,来归纳类中心的可优化程度。以所有类的可优化程度的平均值为新的聚类指标。并且通过设定阈值的方法,分离当前聚类,改进K均值聚类算法。针对K均值易受初始点的影响的缺点,本文通过类之间密集程度来判定是否合并重合度较高的类。本文进行的仿真实验,对新指标的类内评价指标进行估算;对影响新指标的不同因素进行对比;给出了不同维度下、类间密集覆盖时DB类间评价指标的实验值;给出了基于新的聚类指标的K均值改进算法的参数阈值。实验结果表明:改进的K均值聚类算法有效的解决了经典K均值算法容易收敛到局部极值、易受初始点影响的缺点。最后将改进的K均值聚类算法应用在电信用户数据分析上,得到用户的不同特征,为决策者提供备选营销方案。
其他文献
新型增压器由于高性能决定了对其使用叶片的材料性能和几何精度的高要求。涡轮叶片材料是一种时效沉淀强化型镍基变形高温合金,具有很高的热稳定性、热强度性、硬度和耐磨性,
第一部分三种检测方法检测烧伤病人耐甲氧西林金黄色葡萄球菌和鲍曼不动杆菌的比较目的:对比细菌培养法、聚合酶链反应(polymerase chain reaction,PCR).多重聚合酶链(multipl
2003年4月9日,伊拉克驻联合国大使穆罕默德·杜里,面对美国有线新闻网的摄像机,无可奈何地说:“Game isover”(游戏已经结束了)。同一天,美国军方发言人布鲁克斯准将说:“现
西北水利科学研究所提出的“死库复活技术的研究”成果,于1992年1月13日至14日,由水利部水管司主持,邀请水利部科教司、国家防汛办、水电规划设计总院、清华大学、水科院、
对肿瘤病例使用变精度粗糙集与贝叶斯方法到处的诊断规则准确性高于粗糙集理论的诊断准确性。基于变精度粗糙集与贝叶斯网络的肿瘤诊断模型对提高肿瘤诊断水平具有良好的临床
越来越多的企业在新产品开发过程中实施战略流程管理,由此,战略流程团队的建设也被提到了日程,但是很多企业组建的战略流程团队依然缺乏效率.本文从战略流程管理的特征出发,
通过查阅分析历年考卷、考纲、学生的答卷情况以及VCE(Victoria Certificate of Education)课程中的英语课堂教学,从基本理论分析、课堂个例探讨两个方面分别阐述了英语VCE考试
文章阐述了开展现代城市规划环境影响评价工作的重要意义,也分析了现代城市规划与大气环境关系的现状及存在的问题,并提出了开展现代城市规划大气环境影响评价的技术思路。
沈从文创作于抗战时期的小说《芸庐纪事》和《动静》,以抗战初起时的湘西为背景,反映湘西社会基层的抗战现实,书写地方名士的行止见识,礼赞湘西子弟为国牺牲的精神。忧思家国
科技和金融是经济发展的两大引擎,两者的结合对于经济和社会的发展有着重大意义,本文从石家庄科技金融的发展现状出发,从目前所面临的问题着手,分析问题出现的原因,并从多方