全局K-均值聚类算法研究与改进

被引量 : 0次 | 上传用户:myloft2w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘、模式识别和机器学习领域的重要研究内容,其功能是按照某种准则将数据划分成组。目前,对于聚类问题的研究普遍存在于社会生活中的各个领域,如模式识别,图像处理、机器学习和统计学等,作为数据分析和理解的重要方法,聚类分析研究已经有很长的历史。K-均值聚类算法是一种被广泛使用的聚类算法,具有简单易行、高效性等优点。但是该算法存在着一定的缺陷:它对聚类中心初值的选择具有很强的依赖性和敏感性、易受孤立点影响、易陷入局部最优;另一方面,需要事先指定K值表示聚类个数,且K值是决定聚类质量的关键因素之一;另外,在实际应用中将其应用于图像分割时对噪声很敏感。为了改善K-均值算法中所存在的这几个缺陷,本文提出并设计了三种改进算法,主要工作内容如下:1)提出了一种改进的快速全局K-均值聚类算法,该方法在快速全局K-均值的基础上加入了两种改进策略,大大降低了计算量,加快了计算速度。这样不仅解决了K-均值聚类算法最终的聚类结果强烈依赖于初始聚类中心的选取且聚类结果非常不稳定的问题,而且解决了使用快速全局K-均值算法需要计算数据集关联矩阵的问题,用更短的时间得到了更为理想的聚类结果,并且该算法可以用于较大规模数据集的聚类。通过实验证明该算法不仅性能稳定,而且在不影响聚类效果的前提下比原始的快速全局K-均值算法速度更快。2)提出了一种基于新聚类有效性函数的快速全局K均值聚类算法,用一种新的有效性评价函数结合前面提出的改进快速全局K-均值算法,设定在一定范围内变化聚类数,使用聚类算法划分样本数据集,用有效性评价函数评估多次聚类结果的质量,最后找出最优的类别数K值。该算法解决了类别数K值的自动选择问题。实验证明该算法不仅适用于人工数据集和UCI数据集,还可用于自然图像的自动分割,实验结果不仅自动的得到了正确的类别数,而且取得了良好的聚类效果。3)提出了一种结合图像空间信息的快速全局K-均值聚类算法并将其应用于含有噪声的图像的分割,在前面提出的改进的快速全局K-均值聚类算法的基础上结合图像的空间位置信息,加强了该算法用于图像分割时对噪声的鲁棒性。实验证明将该算法用于含有噪声的图像的分割取得了良好的效果,对噪声具有很好的鲁棒性。
其他文献
通过对我省水泥企业资源综合利用情况的分析,结合国家即将出台的水泥产品新标准,指出水泥企业资源综合利用面临的新问题并提出解决问题的建议。
中国战区各区受降史事记述在抗日战争研究资料中较少见且错误甚多。文章对“8.15”前后中国关内日军态势、中国战区受降区划分、各区受降概况等若干史事进行了梳理与订正。
赫尔曼·麦尔维尔(Herman Melville)是美国有史以来最为世人及文学评论界关注的作家之一,他以其独特的写作风格及海洋题材小说而备受争议。赫尔曼·麦尔维尔以自身丰富的四大
作为一衣带水的友邻之邦,日本、韩国自古以来就是与我国往来极其密切的国家,在文化、科技、思想等各个方面有着一脉相承的历史渊源。源自古代中国的“汉文化”是日本、韩国自建
上篇《“五四”启蒙运动的“态度的同一性”》:“五四”启蒙思想缺乏西方启蒙思想的那种分析还原和理智重建的统一方法论,各种相互矛盾的学说在“态度的同一性”基础上形成了
服装展示设计是近年来新兴的一种辅助服装销售的商业促销活动,有助于树立企业品牌形象、拓展服装市场。服装展示设计本身发展历程较短,作为其中分支之一的中式服装展示设计同
边塞诗是中国诗歌史上灿烂的奇葩,尤以盛唐边塞诗最为光彩夺目。王昌龄、岑参都是杰出的边塞诗人代表。他们的边塞诗继承了汉魏时代边塞诗的传统,具有建安风骨,同时又在前人
<正> 33年前的第17届奥运会,一位名叫比吉拉·阿贝贝的埃塞俄比亚马拉松选手成为了第一个夺取奥运会金牌的非洲人。从那以后,非洲黑人一统长跑金牌。 5年前的第24届汉城奥运
随着国民经济快速发展,城市化进程不断加快,城市人口急速膨胀,我国许多城市几乎都亟需建设集约化的公共交通枢纽。同时,在生活节奏不断加快的今天,传统的交通建筑已难以适应
个案研究是包括社会学在内的社会科学的重要研究方法,但个案研究也面临着很多批评。人类学界围绕"微型研究法"、社会学界围绕"个案代表性"问题一直没有停止过争论。事实上,个