增量聚类算法的研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:lovele
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析技术是数据挖掘技术领域中的重要组成部分,在多个领域中有着广泛的应用。随着数据的不断增长,如何从海量数据中高效地获取信息成为聚类算法如今研究的重点。传统静态聚类算法无法在聚类前获取全部数据,导致聚类时效性较差,在大数据环境下适用性不强,因此,增量式聚类算法成为了一个研究热点。当新增数据到来时,将新增数据和原有数据一起重新聚类需要花费大量时间和资源,本文从处理动态数据集的角度出发进行研究,结合静态聚类算法的优点,利用已有的聚类模型处理增量数据,使聚类算法能够更好更快地处理动态数据集。主要研究工作如下:(1)针对单点处理式增量K-Means算法的设计及其初始中心点选择的相关研究。首先,参考K近邻的思想,设计了一种增量方法,根据新增数据的k个近邻来判断新增数据的归属,一个未知类别的数据点应该与其近邻中数据点所属的多数类别保持一致。随着新增数据点不断增长,除了考虑将新增点划分到某个已知簇中或生成一个新簇,还应该考虑增量数据的加入对原始聚类模型的影响,在新增数据达到一定数量时,使用类簇的相关特征来判断是否对簇进行合并或分裂操作。当新簇包含的样本点远小于其他类簇时作为噪声处理。其次,由于使用K-Means算法对初始数据进行聚类时质心的选择对初始聚类模型的影响较大,本文将初始中心点选择在数据密集区域的凸包边界上,能够得到更好的初始聚类模型。该增量算法不仅实现了动态数据的增量处理,能够利用初始聚类结果实现数据模型的实时更新,也提高了聚类精度。(2)针对批处理增量模糊聚类算法的设计及其如何处理稀疏高维数据的相关研究。模糊c均值聚类算法简单,且迭代速度快,但只能处理低维小规模数据,利用该算法的优点,本文采用分块和抽样的方式进行增量式扩展,提出了适合处理稀疏高维大规模数据的改进增量模糊聚类算法spHF(c+l)M、oHF(c+l)M和rseHF(c+l)M算法。spHF(c+l)M算法和oHF(c+l)M算法将数据进行分块处理,rseHF(c+l)M算法对数据进行抽样处理。在每个分块或抽样数据块上运行模糊c均值算法时,首先加入样本权值以提高聚类效果,然后使用改进的考虑质心之间相互影响的目标函数进行迭代提高聚类精度,接着在每一步迭代中将质心标准化,使用余弦距离计算相似度,使算法更加适合稀疏高维数据集。在计算机内存有限的情况下,这种增量模式下的聚类算法能够实现超大规模稀疏高维文本数据集的准确高效处理。实验结果显示,本文三种改进增量聚类算法在大规模英文文本数据集上效果更好更稳定速度更快。(3)最后,简要介绍了中文文本聚类的流程和文本信息的处理过程,同时将本文的增量聚类算法应用在中文文本聚类上,实现了中文文本的增量处理。实验结果证明,本文改进增量聚类算法在处理动态中文文本数据集时效果良好。
其他文献
为了使业务人员对称重式降水传感器有较全面的认识,介绍了 DSC1称重式降水传感器的工作原理、性能参数和维护维修方法,为今后台站应用称重式降水传感器奠定基础。
栽培草莓(Fragaria xananassa)属于多年生草本植物,因果实营养丰富,色泽鲜艳,深受消费者青睐。草莓果实属于假果,鲜嫩多汁的果肉来自于花托,而覆盖在花托表面的瘦果才是植物
四川汇诚置业有限公司是一家港资财团背景的专业房地产投资、开发、经营企业。公司在四川阆中市正规划汇诚金沙半岛楼盘建设、汇诚酒店项目筹建、四川华兰纺织有限公司南迁等
恐怖主义是国家安全面临的重大威胁,是危机管理研究的重要方面。网络化的恐怖组织是谋划和实施恐怖活动的重要力量来源,是本文研究的主要对象。恐怖组织网络动态分析与行为监
计算全息解决了传统光学全息中只能记录、再现静态三维物体的问题,能实现动态三维物体的全息再现。但由于三维物体的空间结构复杂,全息图计算量相应增加。并且在再现过程中,
基于导管的血管内超声(Intravascular Ultrasound,IVUS)是一种微创的导管介入技术,能有效评估血管的狭窄程度及其管壁形态。商用的IVUS将细长的超声导管插入冠状动脉,通过机
当今,计算机网络技术发展得十分迅速,网络犯罪行为日益增加。网络犯罪行为主要有两种形式,一是非法获取系统数据,二是让系统无法提供服务。在非法获取系统数据方面,跨站脚本
基于双极性电化学效应的电沉积技术近年来成为制备特色电沉积层的有效方法。本文采用双极性电沉积法制备了铜基梯度镍电沉积层和海绵铜基梯度镍电沉积层,结合铜的优良导电性
从教育实践者的角度,通过对宁夏六所高等职业院校的中、高层领导分别采用问卷调查、关键事件访谈以及案例研究的方法,分析影响高等职业院校领导核心胜任力的因素。研究认为,
计算蛋白质组学作为蛋白质结构,动力学和功能的基因组建模方式的出现是生物信息学解决方案的基石。许多许多物种的高通量实验数据和基因组水平序列信息的产生已经简化了对蛋