论文部分内容阅读
随着信息技术的发展,尤其是Internet的普及和应用,以电子形式存在的文本信息已经成为人们主要的信息来源,人们需要对这些大量的文本资源进行有效的组织,以利于主题发现、信息检索以及为进一步的文本分类提供模式基础等,于是,文本聚类技术应运而生。但是过去对文本聚类的研究大部分都是基于硬聚类的,即一个文本只能分到一个类中。然而随着信息的膨胀及学科之间的交叉渗透,文本日益呈现出多样性和大量性,一个给定的文本往往可能属于多个类,所以我们需要一种更客观的文本分类描述方法,由此基于模糊聚类技术的文本软聚类方法正逐渐成为文本挖掘中一个研究的热点。在文本聚类研究中特征选择和聚类算法是两个最重要的组成部分,所以论文的研究主要包括以下两方面:1.文本无监督特征选择。考虑到聚类缺乏类的信息使得文本聚类中特征选择一直难以很好地解决,本文结合文档频数和特征相似度方法,提出了一种新的无监督特征选择方法(Document Frequency and Feature Similarity,简记为DFFS)。该方法在过滤掉90%冗余特征的基础上,再通过计算特征的相关性移除尽可能多的无关特征。由于这种方法从纯特征的角度考虑,不受聚类结果的影响,克服了聚类缺乏类的先验知识的缺点,能够较好地解决文本无监督特征选择的问题。2.文本软聚类方法。在分析文本软聚类现状及对模糊C-均值算法(FCM)研究的基础上,通过引入具有全局优化能力的遗传算法,本文提出了一种适合于解决大样本高维度问题的方法——基于采样遗传的模糊聚类算法(Sampling GA-based FCM,简记为SGFCM),该方法通过遗传算法和FCM的结合既能发挥遗传算法的全局寻优能力,又可以兼顾FCM的局部寻优能力,较好地克服了FCM对初始化敏感,容易陷入局部最优的弱点;同时通过对遗传要素的合理设计及采样技术的应用提高了收敛速度,从而更好地解决文本软聚类问题。本文在相应的各章节给出了实验结果,证明了DFFS和SGFCM的有效性。最后对FCM、球型FCM和SGFCM三种方法在解决文本软聚类问题时作了比较实验,并给出了实验结果及其相应的分析。