基于密度峰值的一种文本聚类优化算法的研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:jingjing2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
物以类聚,人以群分。今天,面对互联网上日益增长的数据,聚类在数字图像处理、物种类别分析、网络社区发现、信息安全监测、企业商务智能决策和文本数据挖掘等领域得到了越来越广泛的应用。随着“互联网+”和大数据时代的到来,以K均值聚类为代表的传统聚类算法迫切地需要在算法的收敛速度和聚类的质量等方面进行必要的发展。本文通过引入密度峰值概念,重点研究旨在快速聚类的聚类初始中心点的选择技术,以及旨在提升聚类质量的基于多密度峰值的聚类数目估计方法,进而面向聚类在文本处理中的应用,实现了一种自动聚类算法。本文的主要成果如下:(1)提出了一种基于密度峰值为初始中心选择的快速聚类算法(CIPD)首先,分析了聚类初始中心的随机选择可能导致无法获得全局最优解,聚类结果不稳定,算法无法快速收敛等问题。本文基于聚类中心具有高密度,以及彼此之间距离较远的假设,提出了数据点成为聚类初始中心的潜在可能性指数R,并设计了一种聚类初始中心选择方法(PD)。基于PD方法,本文结合K-means,设计了一种快速聚类方法CIPD。该方法通过寻找数据点密度峰值的方式来寻找到初始聚类中心点,并结合K均值聚类更新这些中心点。在UCI公开四个数据集的测试结果表明,与传统针对K均值聚类的初始中心选择改进的聚类算法比,CIPD上具有更高的精度和更快的收敛速度。(2)提出了一种基于多密度峰值的聚类数目估计方法研究发现密度峰值的个数与聚类数目是密切关联的。基于这一事实,本文提出了一种基于多密度峰值的自动发现聚类数目K的算法CNSFDP。其主要思想为:首先,设计一个与密度峰值紧密相关的指数CS,具有越高CS指数的数据点越有可能一个成为密度峰值。接着,按照CS值的大小进行排列,纵坐标为CS值,横坐标为该CS值按大小顺序排列的序数,会形成一条具有明显拐点的曲线。此曲线拐点前的点含有高CS值,常常被视为密度峰值点。最后,利用最小二乘法等统计方法,可以寻找到这条曲线的拐点,并返回其横坐标值为聚类数目K。与其他针对聚类数目估计的算法相比,CNSFDP因其对数据分布低要求,而可以应用到呈复杂分布的数据集中,例如呈凹状,环状或者混合形状等复杂数据分布类型。在六个公开的UCI数据集上的测试结果表明,相比于基于AIC、BIC、Gap测试等的聚类数目估计算法,该算法有更高的准确率来发现聚类实际数目。(3)基于上述成果,设计了一种面向文本数据的自动聚类模型设计了一种自动聚类算法ACFDP。基于ACFDP,建立一种自动文本聚类模型。该模型首先通过分词、去停用词、建立向量空间模型VSM和计算词频逆向文件频率TF-IDF等方法,将文本数据向量化并提取其主要特征,然后运用ACFDP算法对其进行聚类,最后评价聚类效果。该模型针对从网上爬取的四个类别的文本,与基于K均值文本聚类模型相比,具有更高的准确率,同时因不需要对初始中心设置以及聚类数目估计而更加的智能化。
其他文献
随着信息科学技术的高速发展,人们对海量信息存储的需求日益增长, CPU的处理速度和存储设备I/O处理速度之间的差距越来越大,磁盘I/O成为影响计算机系统性能的主要因素。为了
近年来,互联网技术的迅速发展和广泛应用极大地改变了分布式系统的规模。大型的分布式系统可以扩展至数百万节点,使得传统的同步紧耦合通信模型已不能满足需求。发布/订阅通信
本文主要从三个部分来写,第一部分是环形二级倒立摆仿真模型的实现;第二部分是对仿生智能算法的研究;第三部分是应用改进的放生智能算法对环形二级倒立摆的控制进行多目标优化
当前社交网络是人们获取信息的重要网络平台,但是在社交网络上信息泛滥,其中有正面信息,但也有很多谣言,所以研究社交网络中信息传播的规律,有利于我们更好地使用社交网络,也
随着无线局域网技术的广泛应用,用户对网络性能的要求也越来越高,其中一个非常迫切的要求就是对多媒体业务提供服务质量(QoS,Quality of Servie)支持。IEEE802.11e标准正是为
归档存储系统中元数据操作占所有操作的50%~80%,高性能的元数据管理策略对归档存储系统的性能非常重要。但常用的基于目录子树分区和哈希的元数据管理算法不能适应和利用归档存
由于单隐层的前馈神经网络可以实现对任意非线性函数的映射,所以前馈神经网络(FNN)被广泛的用于函数逼近和分类等问题。BP算法在最优值附近的局部范围内可以较快地搜索到最优
纹理合成指的是由一个小的样图产生一个任意大的纹理图像,样图和结果图像应该被观察者认为是同一种纹理,并且在结果图中不存在明显的接缝问题,纹理合成的结果应该是非周期的
与生命体类似,一个软件也要经历孕育、诞生、成长、成熟、衰亡等阶段,软件开发模型作为描述软件开发、活动和任务的结构框架能清晰、直观地表达软件开发的全过程,明确规定了
随着Internet的普及和电器的智能化和网络化,一种连接各种电子设备、特别是移动和无线设备的普适计算模式正在形成,服务发现协议在这种网络的发展趋势中应运而生。服务发现协