聚类分析中K-均值与K-中心点算法的研究

被引量 : 0次 | 上传用户:saarelff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着信息技术的快速发展,各行各业都积累了越来越多的数据,如何从这些海量数据中挖掘出有用的信息便成了一个很大的困难。随着人工智能技术的发展,数据挖掘技术逐渐被提出来了,用以发掘隐含的信息和数据的内在模式。聚类分析是数据挖掘的经典内容,聚类算法的应用领域包括商务决策、基因分类、图像识别、语义识别、字符识别和数据压缩。聚类技术目前已有的方法有划分的、层次的、密度的、网格的、模型的、统计学的、高维的和约束的方法。本文对聚类分析中的K-均值算法和K-中心点算法进行了研究,具体工作如下:首先,对前人在K-均值算法和K-中心点算法方面所做的工作进行了详细的分析和归纳,提出了要研究的问题。其次,对K-均值算法进行了研究,K-均值算法具有简单和快速的特点,在现实生活中得到广泛的应用。但K-均值算法存在一些缺陷,针对K-均值算法中存在的K值难以确定、K个中心的位置难以选取、孤立点影响聚类效果和只能处理球状类数据等四个缺陷,提出了改进的K-均值算法,该算法可同时克服这些问题;针对K-均值算法中需要人工输入K值的问题,提出了自动获取K-均值聚类参数K值的算法,该算法不再需要人工输入K值,提高了算法的自动化处理能力。通过实验,对算法进行了验证,实验结果表明改进的算法有效的提高了算法的性能。最后,对K-中心点算法中的代表算法PAM(Partitioning Around Medoids,围绕中心点的划分)算法进行了研究,K-中心点算法是在K-均值算法对离群点敏感这样的背景下提出来的一类算法。该类算法具有很好的鲁棒性,但随着数据的增多计算代价显著增高,且其代价函数是通过平均相异度来评估的,当出现两个负代价相等时,容易陷入死循环。针对K-中心点算法容易陷入局部最优的缺陷,提出了采用K-均值预处理回溯法对其进行改进,得到了基于K-均值预处理回溯法的PAM算法(K-means Data Preprocessing Backward Search PAM ,简称KDPBS-PAM)。用回溯的方法使得出现负代价相等情况时,能够跳出死循环,通过预处理方法来加快计算速度。用C语言对算法进行了仿真,仿真结果表明,所提算法能够克服死循环的缺陷而且运算速度得到了加快。
其他文献
施工质量优劣是引起沥青路面破坏的重要原因。沥青混凝土路面施工质量控制是一个动态的过程,对全过程进行控制,需要根据施工过程中指标控制的偏差情况及时调整,使生产处于受
当前,由于现有教育资源配置的不均,使得就近入学政策执行后产生了公平缺失、阶层复制、认同断裂等问题,现有政策的实行背离了其初衷。为了破除其目的实现的现有障碍,有必要利
海洋主导产业的选择是海洋产业结构合理化的核心内容。海洋产业结构的优化升级应该遵循静态、动态相结合的原则,在协调一、二、三产业比例的同时,更应循序渐进的确定发展方向
7月31日,周二。标价1美元的《洛杉矶时报》这天并不厚,只有50个版。当天的50个版中,A叠属于要闻,共有14版,头版头条是张照片,主角是赢得奥运百米仰泳奖牌的富兰克林。6个版的AA叠专
经济全球化和区域经济一体化已成为当今世界不可抵挡的历史潮流。在国内,不同区域间的经济联系也越来越紧密,一体化趋势日益明显,区域经济合作方兴未艾。近年来,随着国家发展
Nd:YAG晶体在科学研究,工业制造,医学医疗,军事应用等领域中扮演着重要的角色,以Nd:YAG晶体为激光增益介质,不仅能获得高功率的1064nm,1319nm和946nm等单一波长激光输出,还可
权威虽然不是衡量经典的唯一标准,却是经典受到历代读者重视的原因之一。经典的权威性并非完全决定于经典是否承载某种真理。在传世的经典中,有些作品承载真理或具有真理性的
城市交通方式结构直接影响着有限的交通资源的配置方式及向交通需求者提供更优选择的可能性,是决定城市交通系统效率高低的关键因素。形成合理的城市交通方式结构不仅是缓解
水库的安全与否及防洪能力的强弱是水库上下游人、财、物安全的重要保障。按照瞬间溃,采用肖克列奇经验公式计算出在设计水位和校核水位时,坝址溃坝的最大流量。再根据Infor
在检索近20年相关文献的基础上分析腹部术后胃肠功能评价指标的现状,发现目前术后胃肠功能评价指标标准不统一,本文对相关评价指标进行总结分析,并提示建立统一、规范、标准