论文部分内容阅读
随着网络的普及,人们每天都要对Web上海量的数据进行处理,而Web上的数据大多以文本形式存在。如何对这些文本进行分类,首先是通过训练集获取的类别特征构建文本分类器,将待分类的文本输入到构建好的文本分类器中,然后将其划分到相应的类别中。但是在传统的文本分类中,并没有考虑类别间存在的层次关系,而简单的认为所有类别相互之间没有交集,同处于一个平面中,从而使得特征间存在着大量的冗余,因此如何结合类别的之间的层次结构对文本进行分类就是一个具有实际意义的课题。此外当数据集的分布不均衡时,如何提高不均衡数据集的分类精度,这也是目前文本分类方面一个重要的研究方向。本文首先对文本分类以及特征选择的背景和理论进行了概述,同时简要的介绍了目前文本分类的国内外研究现状与热点。在此基础上,进一步对层次化文本分类进行了深入的分析与研究,从两个方面重点分析了层次化文本分类中影响其性能和效果的因素,首先从特征选择的角度,对特征选择方法进行了分析,引入了层次相关度和层次冗余度等概念,提出了一种rrHTC算法用于剔除文本的冗余特征,减少了冗余特征对文本分类精度的影响,其次从改进分类算法的角度,针对SVM-KNN分类算法在面对不均衡数据集时的分类精度不高这一不足,通过引入样本中心距等概念,对SVM-KNN算法进行了改进,提出了c-SVM-KNN算法。最后本文通过采用20NewsGroups以及从门户网站网易上抓取的网页这两个数据集,对rrHTC算法以及c-SVM-KNN算法进行验证,并对它们的结果进行分析,实验结果表明,通过rrHTC算法进行特征选择后,利用c-SVM-KNN算法进行文本分类,可以有效的提高分类的精度。