基于语义相似度的群智能文本聚类方法研究

来源 :江苏科技大学 | 被引量 : 3次 | 上传用户:zemao1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界正处于一个信息爆炸的时代,用户查询信息时常常被信息淹没,迷失在信息中,这大大降低了检索的效率。如何快速高效的进行信息的分类管理,为用户提供准确有用的信息,是一个需要迫切解决的问题。在这样的背景下,文本挖掘技术正受到越来越多的关注。文本聚类是文本挖掘的一个重要组成部分,它是聚类方法在文本处理领域的重要应用。文本聚类由于不需要类别的信息,能自动完成文本分组,已经得到广泛应用,如多文档自动文摘系统、搜索引擎、数字图书馆等。目前大部分聚类算法是基于向量空间模型的,这使得文本聚类面临高维性、高稀疏性和忽略语义信息的问题,影响了算法的性能和准确性。本文首先介绍了文本聚类中一些概念和方法,包括文本间距离计算、文本表示模型、文本预处理过程、聚类效果评价和常用的聚类算法等;接着介绍了《知网》的组织结构、相关概念和语义相似度的计算方法,同时也提出了一种改进的文本间相似度计算方法,将其和K-均值算法结合,通过实验数据,证明了该方法的正确性;最后介绍了本文的两种群智能算法,并提出了本文的基于语义相似度的群智能文本聚类算法。在文本预处理的特征提取阶段计算权重时,既考虑了词频和文档频率,也结合了词的词性和词在文本中的位置这两个因素;针对向量空间模型忽略了词的语义信息的问题,本文利用《知网》,通过词的语义信息,来计算文本相似度;针对前人研究的成果,提出了本文的算法,它是在文本相似度的基础上,融合了K-均值算法、蚁群算法和模拟退火算法,利用了它们各自的优点,避免了各自的缺点,通过实验数据,可以看出该算法的有效性。
其他文献
随着互联网的发展,大数据时代悄无声息地走到了我们身旁,每天用户各种各样的行为产生了数以亿计的数据,这其中就包括了社交信息,购物信息以及浏览信息等。大量数据中包含着很
随着高速铁路的快速发展,高速移动通信网络成为高速铁路信息化建设的重要方向之一。高铁移动通信网主要分为铁路专网和用户开放式网络。本文根据特定的用户开放式高铁移动通
现在移动手机的使用已经在我们日常生活中广泛地传播,我们利用移动手机作为照相机,收音机,随身听以及浏览网络的工具。由于大部分的网页是为桌面计算机设计的,很难用小的屏幕设备
支持向量机是在统计学理论基础上发展起来的一种新型学习算法,已在机器学习、模式识别等领域取得了较好的应用效果,然而随着训练数据集规模的不断增大,支持向量机也表现出学习效
三线性分解算法因能对复杂多组分体系中的各组分同时进行定量分析而在众多领域得到应用。然而在嵌入式环境下,该算法因平台优化不足而性能不佳。三线性分解算法计算复杂,如何
近年来,随着云计算技术的广泛应用,数据中心网络的规模不断扩大。数据中心网络的路由方法作为影响数据中心各项性能指标的重要因素之一,一直是相关研究中的热点问题。目前,数
在移动Ad Hoc网络(Mobile Ad Hoc Network,MANET)中,节点的移动特性将直接影响网络性能。因此构建一个真实、合理的移动模型以仿真节点在实际场景中的运动过程是研究MANET的重要
随着信息科技时代的来临,许多曾经需要人工收集数据信息、操作的系统和流程如今已经计算机化,产生了许多信息管理系统例如图书管理系统,然而许多信息管理系统都面临处理速度
WebGIS是Internet技术应用于GIS开发的产物。随着互联网技术的快速发展,WebGIS越来越流行,已经成为大众不可或缺的工具。但是传统的WebGIS客户端依赖于Html,与用户的交互性差