K-means算法的改进及其在文本聚类中的应用研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:valgrind2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展和广泛普及,使网络上文本数据呈爆炸性增长,如何及时准确地从这些大数据文本中获得有价值的信息是学者们研究的热点问题。在此情况下,利用文本聚类对大规模文本信息进行组织、提取重要特征,发现有用价值,以达到减少人工整理文档的工作量,提高文档检索效率,文本聚类的应用前景和研究意义非常深远。K-means算法由于具有简单、速度快等优点在文本聚类中普遍运用。然而K-means算法本身存在一些缺点,如初始中心的选择具有随机性,算法不稳定,并且会收敛于聚类局部最优,同样,k值的选择往往根据用户的个人经验,而k值的选取却直接影响聚类结果的好坏。论文针对K-means算法的这些缺点展开研究并进行改进优化,并将优化后的算法应用到文本聚类实例中,论文主要做了如下工作:第一,快速密度峰值搜索算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)是一种新颖、简洁、高效、基于密度的聚类算法,它可以聚类各种类型的点集。然而当数据集中存在某个类具有多密度峰值情形时,CFSFDP算法不能有效聚类此类数据集。针对这个问题,论文提出基于边界样本优化的快速密度峰值搜索算法(M-CFSFDP),该算法根据邻近簇的边界样本个数来判断是否合并簇。使用本文所选的代表性数据集作为测试数据集,M-CFSFDP算法在测试数据集上可以正确聚类。对比原算法和M-CFSFDP算法的聚类结果可知,改进后的算法在数据集中某个类中存在多密度峰的情况比CFSFDP算法的聚类结果更加准确。第二,针对CFSFDP算法在计算数据点的局部密度时会受到截断距离的影响。根据物理学中势能的概念,将数据集假设为一个势能场,所有的数据点对其它任何数据点都会有影响,能够计算出每一个数据点的势能。由于在数据域中,势能较大的点位于密集区域,这与数据点的密度分布具有一致性,数据点的势能和数据点的密度在效果上也有一致性。论文提出了一种用动力学中的势能替换数据点的局部密度的优化算法(P-CFSFDP)。经典人工模拟数据集上的实验表明,改进后的算法能很好地表示每个数据点的局部密度,并能通过决策图很好地找到初始聚类中心点。第三,K-means算法进行迭代聚类时,初始中心的选择具有随机性,算法不稳定,且会收敛于聚类局部最优。针对这个问题,论文提出基于密度峰值优化初始中心的K-means算法(KP-CFSFDP)。KP-CFSFDP算法利用P-CFSFDP算法来选取初始聚类中心,然后用K-means算法迭代聚类。UCI数据集上的实验表明,KP-CFSFDP算法解决了K-means随机选取初始中心导致聚类结果不稳定的问题。第四,针对K-means算法随机选取输入k值的缺点,论文提出一种基于KP-CFSFDP算法的最佳聚类数确定方法(IKP-CFSFDP算法),该算法可以自动确定最佳聚类数搜索范围。算法首先确定数据集可能的最大类簇数Kmax,以Kmax为搜索上界,利用本文提出的KP-CFSFDP算法迭代聚类,以DB(Davies-Bouldin)和SiL(Silhouette)作为聚类有效性评价指标,最终确定最佳聚类个数。理论分析和在UCI数据集上的实验表明,IKP-CFSFDP算法不仅可以确定最佳聚类数,还可以选择较好的初始聚类中心,该算法具有很好的有效性。最后,论文将IKP-CFSFDP应用到文本聚类的实例中。采用搜狗文本语料库作为实验数据集,使用NLPIR汉语分词系统进行中文分词、去除停用词、提取特征词;使用TF-IDF计算特征词权重,建立文本表示VSM模型,结合IKP-CFSFDP算法对数据集聚类。实验结果表明,IKP-CFSFDP算法在文本挖掘应用中具有更高的准确率以及更好的稳定性。
其他文献
随着税收征管改革的深入,就如何解决在税收征管中信息不对称、数据不真实及数据混乱等征管问题显得尤为迫切。税收数据质量管理系统能对不同类型数据进行分类、筛选、整合,建
国有企业是国民经济的重要支柱,是推进"四个全面"战略布局,实现全面建成小康社会,实现两个"一百年"目标,实现伟大复兴的中国梦重要力量。国有企业的党政"一把手"在企业领导班
<正>德育对于儿童青少年的成长具有不可替代的重要作用,是学校的首要工作,这一点在基础教育界早已达成共识。绝大多数中小学都非常重视德育工作,通过丰富多样的活动实施德育
感染性疾病威胁着人类的健康,头孢菌素类药物在治疗感染性疾病的药物中占有重要地位。而在已上市的五十余种头孢菌素中,C3-含1-甲基-1H-四氮唑-5-巯基(N-methylthiotetrazole
<正>一、问题描述现象之一:苏教版第六册第一单元是三位数除以一位数的笔算以及用除法解决两步计算实际问题.我在学生掌握了计算方法之后,让学生解决教材第16页的7题,如图:
树立榜样是道德教育常用的一个手段,要想发挥榜样教育的作用,首先要弄清楚榜样产生作用的内在机制。人为设立的榜样因为在诸多方面有悖于榜样产生作用的内在机制,其作用往往
<正>湖北省五峰县国家税务局通过把好学习培训、规范操作、分析解答和监控考核四大关口,提升信息管税水平,收到良好效果。2009年以来,税收数据质量在宜昌市名列前茅。
扁平化管理能够更加快速响应不断变化的市场需求,避免因为层级过多导致员工发挥余地较小、成长速度慢,有效减少政策执行中效能传递流失。本文在研究扁平化管理基本原理的基础上
中国在扶贫开发工作上取得了巨大突破,但是贫困地区的贫困状况依然较为严峻,存在着精准识别难和帮扶措施缺乏针对性与差异化等难题。而对贫困地区开展精准扶贫对改善人民生活
大众传播是一种以社会作为空间的最大规模的组织对外传播,其基本特点是"点"(大众传媒)单向流动或辐射到"面",提供的是临摹真实环境的"拟态环境"。大众传播的主要功能是面向社