挖掘任意形状簇的聚类算法研究

被引量 : 6次 | 上传用户:alkjhgfdsa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一个能从大规模数据中发现知识的强大技术。聚类分析作为数据挖掘中的一个基础工具,已经被广泛应用于模式识别、图像处理、空间数据分析、文本分类和信息检索、市场分析等众多领域。随着计算机的普及和互联网的不断发展,数据量越来越大,数据的空间分布中大多包含多种不规则形状的簇,比如地理信息数据、医学图像数据、农业科学数据等,这对聚类分析提出了挑战。传统的聚类算法通常不能很好地挖掘任意形状的簇,近年来,挖掘任意形状簇的研究成为聚类分析领域的一个研究热点。为了更有效地对包含有任意形状簇的数据进行聚类,本文对现有的聚类算法进行分析和研究,提出了两个能挖掘任意形状簇的聚类算法CMSPC、CFDPm。本文提出的CMSPC算法是为了提高在包含任意形状簇的数据集上的聚类质量。CMSPC算法基于点与簇内多点的相似性,对于距离在截断距离之内的两个对象,考虑其中一个对象关于另外一个对象所在簇的归属度,对满足一定归属度的临时簇进行合并。CMSPC算法基于点与簇内多点相似的特点使得聚类结果与簇形状无关,同时能够提取出异常点。本文提出的另外一个聚类算法CFDPm是新型聚类算法CFDP算法的一种改进算法。在多峰簇数据集中,CFDP算法会因簇中心点的选取不准确而导致聚类质量的下降。本文通过综合考虑聚类结果中簇之间的距离、簇内距离、合并两簇后对于整体内部评价指标DBI的影响来有条件地对簇进行合并,从而改善因选择簇中心点失效而带来的聚类质量下降的问题。为了验证本文提出的两种聚类算法的有效性,我们在多个基准数据集上进行了聚类实验。实验结果表明两点:一、CMSPC算法可以对包含任意形状簇的数据进行较好的聚类,同时识别出异常点,具有较高的聚类质量。二、CFDPm算法能够克服CFDP算法因簇中心选取不准确而导致的聚类质量下降的问题。
其他文献
老龄化进程的加速使得中国将面临一系列的挑战,虽然中国养老资源供应出现严重短缺,但是却催生了丰富的养老需求。传统的家庭养老模式已经不适应现代社会的发展,机构养老模式
中国农民工长期工作在城市,从事各种职业,技术水平也高低不同。但是,他们的居住条件却惊人类似,人均居住面积不足4平方米,住房设施简陋、环境差。同质性强,居住模式以集体居住为主,
随着我国人口老龄化趋势的不断加剧,快速人口老龄化和人口高龄化趋势结伴而来,日益繁重的养老压力成为当今社会必须解决的问题。社区居家养老作为一种新型的养老方式成为缓解
"渗透式"教学法是在坚持以教师为主导的教学模式基础上,综合运用启发式、实验式、参观式等先进教学方法,并以现代化教学设备为依托的一种开放式的新型教学方法。在渗透式教学
基于Johnson-Cook方程建立超声冲击处理的三维有限元模型,研究超声冲击处理奥氏体不锈钢S30403的动力学过程,分析冲击速度、覆盖率对残余应力分布和表面应力集中因子Zi的影响
21世纪中国的法治建设将逐渐步入宪法时代,这已成为越来越多的人之共识。宪法时代呼唤我们思考宪法学的定位。从宪法学的属性看,宪法学是法学;从宪法学的取向看,宪法学是人学
信息化、网络化和人性化已成为当前数字社区管理和服务的主流。本文提出了数字社区的"三级互通"和"时——房——人——事"四位一体的管理模式。详细介绍利用3S技术、大型数据
<正>时下,化工行业整体结构性过剩,产业结构亟待优化。其中基础产品市场竞争力弱,企业盈利能力整体下降,高端产品储备不足。要解决这些问题,最根本的是要靠技术创新的力量,而
期刊
文章基于近年来国际资源市场价格激烈波动的现实背景,选择中国33个工业部门以构建反映部门间内在联系的全局向量自回归模型(GVAR),分析外部资源价格冲击对工业部门价格和产出
目的比较下肢手术患者自控静脉镇痛(PCIA)中舒芬太尼与舒芬太尼伍用氟比洛芬酯的镇痛效果与不良反应。方法选择下肢手术术后行PCIA患者80例,用抽签法随机分为两组。舒芬太尼