基于潜在语义索引的文本聚类算法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:snsjgl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。文本聚类技术具有较强的灵活性和自动处理能力,已经成为对文本信息进行有效地组织和导航的重要手段。本文是在对文本聚类的整个过程深入研究的基础上,利用潜在语义索引(Latent Semantic Indexing,LSI)在处理语义和降维方面的优势,以目前常用K-means聚类算法为主要框架,探索和研究潜在语义索引在文本聚类中的应用。本文的目的是研究具有更高效性能的文本聚类算法,并尝试从语义上更好的对文本进行聚类。本文的主要研究工作如下:首先,文本预处理作为文本聚类最重要的基础,许多关键技术直接影响了文本聚类的最终结果。本文对文本聚类预处理中的关键技术:关键词抽取和文本向量化作了比较系统深入的研究,这为后文的聚类实践打下了坚实的基础。其次,针对传统K-means聚类算法聚类结果不稳定的问题,本文对该算法进行了改进。改进包括:(1)采用一种基于最小最大原则的K-means初始分布选择方法来自动选择该算法的k参数;(2)用向量之间的余弦相似度而不是欧氏距离作为文档之间的相似度;(3)增加迭代收敛条件,使得最终的聚类结果能够趋于稳定,即使是随机选取聚类初始中心。再次,作为一种重要的自然语言处理应用,文档聚类具有高维和语义相关的特点,因此影响文档聚类结果的因素除了文档聚类算法的选择以外,还包括语义问题的处理和降维问题,如何有效地降维已经成为文本聚类效率提高的难点和热点。本文将潜在语义索引应用于文本聚类当中,通过奇异值分解(Singular Value Decomposition,SVD)和半离散矩阵分解(Semi-DiscreteDecomposition,SDD)方法分别对文本预处理后的向量文件进行分解,再对消除噪声后的向量空间进行聚类,试验结果验证了该方法的有效性。本文最后通过对多个预处理后的语料进行聚类实验,并对实验结果进行比较分析。多次试验结果证明了上述对现有文本聚类算法改进的有效性。实验证明,基于潜在语义索引的文本聚类算法绕过了现有语言规则,通过规则与统计相结合更好地实现了自然语言理解。
其他文献
近几年来,随着GIS技术和Internet技术的不断发展,WebGIS有了很广泛的应用。由于GIS具有数据量大和响应要求快等特点,传统WebGIS已经不能很好地满足用户的浏览体验,如系统响应
随着中国汽车保有量的激增和国家对汽车性能检验的强制推行,客户对汽车检测线的要求也不断提高;同时,相关IT技术的迅速发展也为我们提供了更加先进和完善的解决方案。笔者在
在基因组序列组装算法中,一个最基本的问题就是如何合适的选择上下游的短序列用于组装成一个长序列。当单独从一个种子序列进行扩展的时候,大量的重复的区域将会导致非常多的
在开放式网络环境下,信息技术的迅速发展带来的网络安全问题日益突出,信息资源在被访问、分发传播过程中,存在诸如非法访问、越权使用等现象,妨碍信息安全传播。如何加强信息
数字证书作为一种权威性的电子文档,提供了一种在Internet上验证用户身份的方式,人们可以在互联网交往中用它来识别对方的身份。为了保证数字证书的唯一性和可靠性,通常采用
随着移动通讯和信息技术的不断发展,传统的手机已经不能满足用户更高级的需求,智能手机的出现,使得移动通讯应用出现了新的革命。目前,智能手机的销量不断上升,具有广阔的市
开放式网络环境使人们充分享受网络的便捷,与此同时,各种针对网络的攻击与破坏日益增多。作为保障网络安全的必要手段之一的入侵检测系统(IDS),正受到越来越多重视。从数据挖
现有的访问异构平台下应用程序的方法一般是通过远程桌面工具登录到远程主机执行服务器的应用程序。但是,这种方法存在很多不便,例如,用户不得不在陌生的服务器环境下进行操
纹理合成是真实感和非真实感绘制领域的研究热点之一,并在虚拟现实、计算机视觉等领域得到广泛应用。纹理能够表现出物体表面丰富的细节特性,可以描述各种各样有着重复特征的
随着大数据时代的到来,庞大的数据量给人们带来无限商机,也引起了学术界、企业界及政府机构的高度重视。但数据的复杂性和多样性也导致数据价值密度不高,冗余数据较多等问题