中文文本聚类关键技术研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:littleshrimp1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,文本信息呈爆炸式增长。如何从这些海量的文本信息中获得隐含的有价值的信息成为当今重要的研究课题之一。文本聚类技术作为文本信息挖掘的重要手段,受到了国内外学者的高度关注。本文首先介绍了文本聚类分析关键技术的国内外研究现状,紧接着介绍了文本聚类分析中的中文文本预处理、文本特征提取、文本建模、文本相似度计算、聚类算法等关键技术。其中,文本相似度计算是文本检索中最核心的问题,而聚类算法的好坏直接影响着文本最终的聚类效果。鉴于此,本文重点研究了文本聚类中文本相似度计算方法和聚类算法两个关键技术。通过研究潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型及词共现的相关理论,将基于词共现的主题特征词之间的文本语义相似性度量方法融入到LDA主题模型中,提出了一种基于LDA主题模型和词共现的文本相似度计算方法。实验结果表明,该相似性度量方法在文本聚类的查准率、查全率等方面均有所提升。经典的Lumer-Faieta (LF)蚁群算法存在着缺乏严密的数学依据,以及在聚类过程中根据先验知识随意设定蚂蚁放下或者拾起目标对象概率等缺陷。为了解决这些缺陷,提出了一种集粒度计算、蚁群算法和模糊思想的模糊聚类算法GAFCM。该算法引入了模糊粒度计算的思想,通过相似度隶属函数决定蚂蚁对该对象是拾起或放下;针对模糊C均值算法(FuzzyC-Means, FCM)聚类结果受初始聚簇中心的影响及对离群点较敏感等缺点,用改进的蚁群算法对文本先进行初始聚类,再以其聚类中心作为FCM算法的初始聚类中心,进行FCM聚类。该方法在一定程度上克服了FCM算法对离群点比较敏感及其聚类结果易受初始聚类中心影响等缺点。仿真实验研究表明,该算法具有较好的综合性能和较好的聚类效果。
其他文献
随着网络通讯的飞速发展,图片、语音、文本、视频等数字媒体格式在最近十几年已经非常普遍。在这种环境下,数字产品很容易被复制、处理、传播和公开。为了解决这个问题,数字
H.264是ITU-T和ISO联合推出的最新标准,采用更有效的视频压缩编码技术,比其它视频标准具有更高的压缩比率、更好的网络亲和力、更适合网络传输;但同时也增加编码的计算复杂度
随着信息技术的发展,互联网用户与日俱增,用户在使用网络过程中会遇到自己的敏感信息被泄露、银行卡密码被盗、机器被种植木马等一系列安全问题,但是用户一般在财产受到损失
网格任务调度策略是网格计算领域中的关键研究方向之一。在网格计算中,通过采取适合于网格任务特征和资源特点的调度策略,将网格计算中的资源分配给匹配的网格任务,从而使网
随着信息社会的发展,无论办公场所还是普通家庭内部的局域网络都变得十分普遍,而且很多的家电设备也逐步的加入到网络中,“数字家庭网络”的发展受到越来越多的关注,其目的是
嵌入式软件的特殊性使得其开发过程比传统的通用计算机软件要复杂得多,而调试作为嵌入式系统开发中的关键环节,扮演着十分重要的角色。目前,国内在嵌入式调试技术方面所做的研究
随着嵌入式与数字多媒体技术的发展,嵌入式播放器已经成为当前研究的一个技术热点,但由于嵌入式设备资源的有限性使得嵌入式播放器的开发难度远远高于PC播放器。目前国内自主
随着信息技术、多媒体技术以及网络与通信技术的飞速发展,图书馆在经过传统图书馆阶段、自动化阶段之后已经步入数字化建设阶段。近几年高校规模的不断壮大更是为图书馆的发
随着计算机网络技术和通信技术的飞速发展,教育正逐步走向信息化。高校各个部门都很重视信息化建设,然而由于传统的软件开发使用的平台、开发工具、操作系统在结构上的紧耦合
面向构件的软件开发是最近十几年软件工程的研究热点,构件可以从更大粒度上复用软件,提高软件的开发效率和开发周期,减少软件的成本。软件度量可以从软件的外部和内部属性进