基于遗传的文本软聚类研究与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:lyre1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,尤其是Internet的普及和应用,以电子形式存在的文本信息已经成为人们主要的信息来源,人们需要对这些大量的文本资源进行有效的组织,以利于主题发现、信息检索以及为进一步的文本分类提供模式基础等,于是,文本聚类技术应运而生。但是过去对文本聚类的研究大部分都是基于硬聚类的,即一个文本只能分到一个类中。然而随着信息的膨胀及学科之间的交叉渗透,文本日益呈现出多样性和大量性,一个给定的文本往往可能属于多个类,所以我们需要一种更客观的文本分类描述方法,由此基于模糊聚类技术的文本软聚类方法正逐渐成为文本挖掘中一个研究的热点。在文本聚类研究中特征选择和聚类算法是两个最重要的组成部分,所以论文的研究主要包括以下两方面:1.文本无监督特征选择。考虑到聚类缺乏类的信息使得文本聚类中特征选择一直难以很好地解决,本文结合文档频数和特征相似度方法,提出了一种新的无监督特征选择方法(Document Frequency and Feature Similarity,简记为DFFS)。该方法在过滤掉90%冗余特征的基础上,再通过计算特征的相关性移除尽可能多的无关特征。由于这种方法从纯特征的角度考虑,不受聚类结果的影响,克服了聚类缺乏类的先验知识的缺点,能够较好地解决文本无监督特征选择的问题。2.文本软聚类方法。在分析文本软聚类现状及对模糊C-均值算法(FCM)研究的基础上,通过引入具有全局优化能力的遗传算法,本文提出了一种适合于解决大样本高维度问题的方法——基于采样遗传的模糊聚类算法(Sampling GA-based FCM,简记为SGFCM),该方法通过遗传算法和FCM的结合既能发挥遗传算法的全局寻优能力,又可以兼顾FCM的局部寻优能力,较好地克服了FCM对初始化敏感,容易陷入局部最优的弱点;同时通过对遗传要素的合理设计及采样技术的应用提高了收敛速度,从而更好地解决文本软聚类问题。本文在相应的各章节给出了实验结果,证明了DFFS和SGFCM的有效性。最后对FCM、球型FCM和SGFCM三种方法在解决文本软聚类问题时作了比较实验,并给出了实验结果及其相应的分析。
其他文献
随着嵌入式系统发展的日新月异,芯片制造技术的不断革新,嵌入式计算机已被应用到各个领域和产品中。为了适应社会的需求,目前大多数高等院校都开设了嵌入式系统课程,嵌入式系
互联网正在发生着重大的变化。随着电子商务和B2B应用的发展和需求的加深,为了在激烈的竞争中生存下来,许多企业和组织迅速将其核心业务作为一组Web服务发布到互联网上,因此企业
随着电子商务的发展,企业往往需要一种分布式计算模型来集成企业内部和企业之间的应用系统(EAI和B2BI),以实现企业内部完整的商业流程和支持跨企业的商业运作。这种分布计算
Web服务作为工业界的一个标准,是未来互联网重要应用之一。将语义Web的核心技术——本体应用于Web服务,形成了语义Web服务。语义Web服务在标准的Web服务描述中添加了语义信息,使
随着网络技术的发展,网络存储技术越来越受到人们的重视。网络存储技术中有两个问题急待解决,首先传统的网络存储技术只注重于对服务器存储设备的研究,而忽略了对用户计算机
随着计算机技术的日新月异和自然科学领域的不断发展,科学工作流作为面向数据的工作流旨在利用计算机技术帮助人们解决科学实验的数据再现和有效性验证等问题,并进一步减轻科学
随着大规模集成技术的发展,数字信号处理器(DSP)在功能、处理速度和处理能力方面都取得了划时代的突破,并广泛应用在数据通信、图像处理、语音处理、自动控制等领域中。DSP嵌
语义网是当前Web的一种扩展,其中的信息附加了机器可处理的语义。语义网是一个信息基础设施,它提供一个通用可存取的信息平台,使计算机能有效地发现、处理、集成和复用Web内
学位
随着科学技术特别是计算机网络与信息技术的迅猛发展,科研环境和科研过程发生了很大的变化。由于科学研究的问题空前复杂化,科研过程中对数据和信息的获取和处理显得越来越重