基于簇相合性的文本增量聚类算法研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:sk_only
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的飞速发展,网上的信息数据也随之呈指数级增长。为有效应用互联网上的海量数据,人们迫切需要一些有力的组织和管理工具,文本聚类技术正是其中的一种。传统聚类方法的模式是基于对所有对象进行同时处理,一旦有数据更新或有新的数据需处理,算法就必须对整个数据集重新聚类。因而这种模式时间复杂度非常高,且只适合处理静态数据,而不适合动态数据的聚类。增量聚类则可较好地处理动态数据,在数据不断更新或增长的情况下,通过扩充已有的聚类结果,可避免大量重复计算,从而减少处理时间,并最终提高聚类性能。本文提出了一种新的基于簇相合性的文本增量聚类算法,它首先利用WordNet计算出每两个词项之间的语义相似度,在统计词项出现频率时,以一定准则累加与它相近词的出现频率,这样能够更准确地为词项分配频率权重。然后计算每个新增文本与所有已有簇之间的相合性,这不仅是简单地计算文本与簇心之间的相似度,同时还考虑到了每个簇之间的相似性。算法将文本加入到相合性得分最高的簇中,并更新所属簇的簇心、均值、方差等特征信息。为进一步提高聚类性能,一旦增量处理完一部分文本,算法将以同样的方式对其中不确定划分的文本进行重新分配。若有文本仍不能确定其类别,则将它加入到与之有最大相合性的簇中,这种情况并不更新该簇的簇心,以避免错误分类造成的结果偏差。本文工作主要如下:1)使用基于词项语义相似度的文本模型。它不仅统计了每个词项的出现频率,而且还根据词项之间的相似度,增加其近义词的词频,从而更加准确地分配词项频率权重。2)提出基于簇相合性的文本增量聚类算法,并使用一种新的方法来计算文本与簇之间的相合性。算法在20newsgroups数据集上进行实验验证,并与经典聚类算法k-means以及新近提出的基于相似度直方图的增量聚类算法进行了对比;使用的评价指标分别为纯度、熵、归一化互信息。此外,我们还详细分析了阈值对算法性能产生的影响。实验结果表明,三个评价指标均显示,本文提出的算法总体效果要优于对比算法,且相较于k-means,计算时间复杂度也大大降低。
其他文献
示波器技术的迅速发展,使得示波器波形分析成为可能。本文应用LabVIEW软件编写了示波器数据获取系统的底层程序和用户界面程序。通过调用不同示波器的驱动程序实现对多款示波
在三十年的教育教学工作中,我有许多无奈,也有许多收获。对于我的学生,我有一千条理由原谅他们所犯的错误,并愿用我的爱心呵护他们成长。
高动物蛋白源──日本“太平二号”蚯蚓的养殖技术广东省肇庆市粮食局科技中心美国青蛙养殖场郑建平饲料资源是饲料工业赖以发展的必不可少的基础。目前,高蛋白动物性饲料资源
在教学中,时常听到一些体育教师抱怨现在的体育课不好上。究求原因,一方面,苦于体育课既无教材,又无较好的体育器材和场地;另一方面,受应试教育的影响,学生对体育锻炼的意义认识不足
诉讼时效制度能够经历时间的考验,一直传用至今,并在世界各国得到广泛的使用。同时,时效制度在移植到我国的这些年中,对我国经济的发展、社会秩序的维护等方面发挥的作用,也
二十一世纪被称为“海洋的世纪”,人类与海洋的关系日益密切。随着人口的增长,经济的发展以及人类对于海洋开发利用程度的不断加强,海洋的资源以及环境受到了十分严重的损害。我
随着我国经济及金融体制改革步伐的加快,我国商业银行外部经营环境也发生了重大而深刻的变化,金融同业竞争日趋激烈。国有商业银行与国际先进商业银行的竞争的差距不仅表现在金
当前,我国正处在全面建成小康社会的决定性阶段,解决好人民群众最关心、最直接、最现实的收入分配问题,既是全面建成小康社会的基本目标之一,也是人民群众最为迫切的要求。广
随着计算机的日益普及和计算机技术的飞速发展,以计算机技术和网络技术为核心的现代教育技术已在课堂教学中被广泛使用,这使得原本枯燥、无味的课堂教学走向直观、生动的多媒