改进K-Means算法在文本聚类中的应用

被引量 : 0次 | 上传用户：wuang810

【摘要】

：

随着Internet的大规模普及和企业信息化程度的提高，无结构(如HTML和纯文本文件)或半结构(如XML数据)化的文本数据正在以惊人的速度增长，文本数据的管理和分析就变得空前重要。

【作者】

：

于宽

【发表日期】

：

2007年期

【关键词】

：

聚类 K-Means 密度半径自动加权标引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的大规模普及和企业信息化程度的提高，无结构(如HTML和纯文本文件)或半结构(如XML数据)化的文本数据正在以惊人的速度增长，文本数据的管理和分析就变得空前重要。聚类技术作为文本信息挖掘技术中的核心技术之一，其目标是将文档集合分成若干个簇，要求同一簇内文档内容的相似度尽可能的大，而不同簇之间的相似度尽可能的小。自20世纪50年代以来，人们提出了多种聚类算法，大致可分为基于划分和基于层次的两种。在基于划分的聚类算法中，最著名的是K-Means算法。自1967年由MacQueen首次发表后，目前已经成为数理统计、模式识别、机器学习和数据挖掘等领域应用最普遍的聚类算法之一，并衍生出多种变形算法，组成了K-Means算法家族。这些K-Means类型的算法聚类速度快、易于实现，而且适用于文本、图像特征等多种数据的聚类分析。然而，由于聚类初始中心点选择的随机性，传统K-Means算法以及其变种的聚类结果会产生较大的波动。本文基于密度的概念，对每个点(文本)按密度大小排序，通过自适应选择最佳密度半径来确定最大的点密度，选择密度较大且合理的点作为聚类的初始中心点，从而优化中心点的选择，使K-Means算法有个好的起点。同时针对文本特征矩阵的高维性、稀疏性等特点，文本的每一个类别聚类时限定于所选关键词的一个子集，因此本文在每一个聚类簇上根据变量对聚类结果贡献的重要程度赋予其不同的权值，重要的变量赋予较大的权值，可以有效地解决文本数据的稀疏性、高维性等问题，显著地提高K-Means算法聚类的准确性，快速发现好的聚类簇，得到一种适合文本数据聚类分析的改进算法。本文对K-Means算法做了两点重要改进，实验表明改进后的算法能够生成质量较高而且波动性较小的聚类结果。同时，为了使聚类结果易于理解和表达，对聚类簇进行合适的标引，以便正确理解聚类簇内容，提高信息处理的性能和效率。

其他文献

苏州工业园区的城市规划

期刊

城市规划工业园区

城市边缘带村镇规划建设的实践与思考

在城市化加速时期,城市边缘带是城市扩张最有潜力的地带,也是矛盾最集中的地方,要消解这些矛盾单靠城市自身的调节远远不够。本文通过两个位于城市边缘带的村镇规划与建设实

期刊

城市化城市边缘带港杨场村

电气工程安全问题及质量控制探讨

本文主要探讨电气工程安全质量控制工作,随着电气工程技术的日益完善、施工管理水平的不断提高,电气工程安全质量控制也越来越趋向系统化、多层次化发展。

期刊

电气工程质量控制