改进K-Means算法在文本聚类中的应用

被引量 : 0次 | 上传用户:wuang810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的大规模普及和企业信息化程度的提高,无结构(如HTML和纯文本文件)或半结构(如XML数据)化的文本数据正在以惊人的速度增长,文本数据的管理和分析就变得空前重要。聚类技术作为文本信息挖掘技术中的核心技术之一,其目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。自20世纪50年代以来,人们提出了多种聚类算法,大致可分为基于划分和基于层次的两种。在基于划分的聚类算法中,最著名的是K-Means算法。自1967年由MacQueen首次发表后,目前已经成为数理统计、模式识别、机器学习和数据挖掘等领域应用最普遍的聚类算法之一,并衍生出多种变形算法,组成了K-Means算法家族。这些K-Means类型的算法聚类速度快、易于实现,而且适用于文本、图像特征等多种数据的聚类分析。然而,由于聚类初始中心点选择的随机性,传统K-Means算法以及其变种的聚类结果会产生较大的波动。本文基于密度的概念,对每个点(文本)按密度大小排序,通过自适应选择最佳密度半径来确定最大的点密度,选择密度较大且合理的点作为聚类的初始中心点,从而优化中心点的选择,使K-Means算法有个好的起点。同时针对文本特征矩阵的高维性、稀疏性等特点,文本的每一个类别聚类时限定于所选关键词的一个子集,因此本文在每一个聚类簇上根据变量对聚类结果贡献的重要程度赋予其不同的权值,重要的变量赋予较大的权值,可以有效地解决文本数据的稀疏性、高维性等问题,显著地提高K-Means算法聚类的准确性,快速发现好的聚类簇,得到一种适合文本数据聚类分析的改进算法。本文对K-Means算法做了两点重要改进,实验表明改进后的算法能够生成质量较高而且波动性较小的聚类结果。同时,为了使聚类结果易于理解和表达,对聚类簇进行合适的标引,以便正确理解聚类簇内容,提高信息处理的性能和效率。
其他文献
在城市化加速时期,城市边缘带是城市扩张最有潜力的地带,也是矛盾最集中的地方,要消解这些矛盾单靠城市自身的调节远远不够。本文通过两个位于城市边缘带的村镇规划与建设实
本文主要探讨电气工程安全质量控制工作,随着电气工程技术的日益完善、施工管理水平的不断提高,电气工程安全质量控制也越来越趋向系统化、多层次化发展。
作者就当前对居住区绿地有关概念含混不清的状况,澄清了有关概念的具体内涵外延,并从整体把握、重点控制、力求创新等几方面阐述了居住区绿地规划控制内容。
在苏州历史街区中,富有个性的传统生活方式—庭院与街巷生活方式可以容纳现代社会需要的行为模式与人格需求,进而促进地区的传统文化与现代文明在传统基础上找到合适的契合点
<正>随着内外部环境的不断复杂化,我国银行机构亟需提升自身风险管理和内部控制水平。内部控制是一种动态过程和机制,风险管理提供保证的过程和方法,二者之间既有区别又有联
随着商业银行经营转型步伐的加快,产品与服务的竞争越来越决定各行在市场中所处的地位,因而白热化竞争不可避免,种种不合理行为也因此产生。本文拟对当前产品营销中存在的不
随着环境问题的不断加重,影视公司也开始关注这一问题,导致环保类纪录片成为热门题材,《海豚湾》就是这类题材中的经典,该片是由里克&#183;奥巴瑞和电影人路易&#183;皮斯霍斯
政府补助是政府干预经济的一种手段。出于政治、经济、社会等原因,各国政府或组织常常以一定的形式给予企业各种补助或援助,以引导行业的发展或者抑制某些经济活动。本文首先
本文在对国内金融机构电子银行发展和农行咸宁市分行电子银行业务发展现状进行分析的基础上,提出了对全行电子银行业务发展的建议和思路,以期实现农行咸宁市分行电子银行业务