论文部分内容阅读
在如今信息爆炸的互联网时代,随着web文本数量的规模不断增大,人们要从这些海量的文本信息中快速有效地找到自己想要的信息,仅靠人工的分类方法是行不通的,而文本聚类技术正好凭借其优秀的文本自动化分类能力为此提供了解决之道。研究表明,传统的基于划分的聚类算法比如K-均值算法,存在以下两个缺点:第一是不能很好地识别非球状或者大小各异的聚类簇;第二是对预先设定的聚类数目K值敏感。针对第一个问题,本文采用了一个核方法,也称为One-class SVM,它通过一个核函数,在输入空间和特征空间之间建立一个非线性映射,通过计算得到一个半径最小的且包含该类所有数据点的超球体,超球体的球面就是聚类边界,边界上的数据点称为该聚类簇的支持向量,这些支持向量就代表了一个聚类簇。其实,One-class SVM可以看成为一个二值分类器,但是,实际遇到的问题大部分属于多值分类情况,为此,本文通过构造K(K为聚类数)个One-class SVM分类器,来解决多分类问题。针对第二个问题,本文将核方法运用到CDBW评价函数,引入了一个基于核方法的评价函数KCDBW,动态地对每次聚类结果进行评价,并记录最优聚类结果,以找到最优的聚类数目。基于以上两点,本文设计了一种新型的基于核方法的动态划分文本聚类方法,即基于One-class SVM的多球体文本聚类算法,它的主要思想是:首先采用LSA,即潜在语义分析方法来缩减文本向量空间模型维数,其次,采用One-class SVM对每个聚类簇进行训练,得到相应的支持向量机模型,并利用聚类评价函数KCDBW指导文本聚类,最终得到最优的聚类数目。为了评判本文给出的一种基于核方法的动态划分文本聚类算法的聚类效果,本文首先设计实现了一个实验平台,然后在三种数据集包括人工数据集,UCI数据集以及搜狗文本数据集上,分别使用了本文方法和传统的聚类算法对其进行了聚类实验,最终的实验数据说明了本文设计的一种基于核方法的聚类评价函数KCDBW对聚类过程具有很好的指导意义,本文给出的一种基于核方法的动态划分文本聚类算法比传统的聚类算法具有更好的聚类效果。