K-均值聚类算法的研究与分析

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:zcykf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是信息处理和数据库技术领域的前沿研究课题,是致力于数据分析和发现数据内部蕴含知识的技术。聚类分析是数据挖掘领域中的重要技术之一,是一种数据划分的重要手段和方法:聚类算法也是数据挖掘,模式识别和机器学习等方向的重要内容之一。聚类的应用非常广泛,在市场营销、金融、生物学、地质学和机器学习中都有着重要的作用。   本文首先对聚类分析的概念和理论基础进行了阐述;其次重点对k-means聚类算法进行了分析和研究,k-means聚类算法是一种基于划分的方法,它的优点是算法简易、速度快、扩展性好、适用于预处理大规模数据;但是算法也存在不足之处,如算法需要指定聚类的个数和初始聚类中心,还有算法对初始聚类中心的选取依赖性很强,如果初始聚类中心选取不当容易陷入局部最优解等;并且算法对异常数据敏感,如果初始聚类中心中存在异常数据,聚类的最终结果距离正确的结果更是相差甚远。文章还对聚类过程中的异常数据做了全面的分析,把异常数据总结分为了两大类,给出了异常数据的确定规则,在最优二叉树的基础上实现了异常数据的剔除算法,并将其应用于k-means聚类算法的初始中心的选取上,可以在剔除异常数据的同时选取比较有代表性的数据作为初始聚类中心。文章的最后通过matlab编程对改进的算法进行了数值实验分析,实验结果表明算法能够有效的发现并剔除异常数据,选取具有代表性的数据作为初始聚类中心。
其他文献
随着web应用的日益普及,对软件可信性的要求越来越高。软件安全性是可信性的重要组成部分。软件安全问题的本质是软件安全缺陷被攻击者的恶意利用。因此对于安全缺陷进行分析
地理信息系统应用于警务工作是警务信息化的核心内容之一,特别是随着我国“金盾工程”实施的不断普及和应用的逐步深入,警务信息化已经成为我国“科技强警”的重要技术手段。 
计算机科学和生物物理学及神经心理学的结合是目前学者们研究的热点,而基于视觉注意机制的计算模型的研究是三者结合的核心问题。视觉注意机制是人类特有的生理特性,它在人类
近年来,随着计算机技术和网络技术的发展,以纸和笔为主要工具的传统考试方式的考试过程成本高、效率低下等诸多弊端越来越凸现出来。针对这一现状,在线考试系统应运而生。在线考
随着计算机和网络技术的不断发展,现代远程教育在中国取得了长足的发展。宁波广播电视大学通过外部引进和自主开发等方式建设了以教务管理系统、远程教学系统、办公自动化系统
Internet技术的飞速发展促使信息迅速膨胀,对信息资源管理和共享的需求亦变得越发迫切,使得已经在传统领域内趋于成熟的数据库技术,面临着许多新的问题和挑战。   在加入世界
学位
随着互联网技术发展逐渐成熟,人们的生活越离不开网络,电子商务技术的应用进入的飞速的发展阶段。互联网络的开放性使得任何人在任何地点、任何时间都可以在网上销售或购买商
协议测试是协议工程学的重要研究领域之一。其中,协议测试中的一致性测试是近年来国际上非常关注的、也是发展较快的一个研究领域,它是协议测试的基础,是提高和保证协议实现
Web3D技术的进步和互联网技术的提高极大地推动了国内基于Web3D的电子商务的发展,特别是随着上海世博会的成功,吸引大家对Web3D技术的注意,也使大家对Web3D技术有了全新的认识。
新世纪由于科学研究的发展以及互联网普及程度的提高,使得人们以从未有过的便利去共享与查找科研资料。但面对海量文献,进行交叉研究的学者或者是对其涉及领域不熟悉的研究人