论文部分内容阅读
随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的,这就导致了数据量大但信息却比较匮乏的状况。如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注。“在文本文档中发现有意义或有用的模式的过程”[1]的文本挖掘技术为解决这一问题提供了一个有效的途径。而文本分类技术是文本挖掘技术的一个重要分支,是有效处理和组织错综复杂的文本数据的关键技术,能够有效的帮助人们组织和分流信息。文本分类的两个重要的研究方向是:特征选择与文本分类算法。特征选择是指从高维的文本特征空间中选择出最能代表文本内容的特征,好的特征选择方法一方面能够降低文本特征空间的维数,以利于提高文本分类的效率,另一方面好的特征选择方法通过去除对文本分类无效的特征也有利于提高文本分类的分类精度。而好的文本分类方法则能够直接有效地提高文本分类的效果。文本分类的一个重要环节就是对高维的特征空间进行压缩,以选择出最能代表文本内容的特征词。特征选择方法的好坏直接影响文本分类的效果。本文通过对目前常用的特征选择方法进行分析比较发现,目前大多数常用的特征选择方法都是通过对特征词条重要程度的某个方面进行度量来决定是否选择该特征词条,缺乏对特征词条重要程度的综合度量。鉴于上述缺陷,本文提出了一种新的特征选择方法,从特征词条在文档中出现的次数、特征词条的文档频数、类别区分能力、类内分散偏差、位置重要性等几个方面来综合度量特征词条的重要性,作为特征选择的依据。为了为本文实验搭建实验平台,本文的另一个工作是构造一个中文文本分类系统,该系统由分词模块、特征选择模块、文本分类模块组成。三个模块之间相互独立且具有统一的接口,对其中任何一个模块的更改对其他模块都不会产生影响,同时由于具有统一的接口,所以模块之间的调用也十分的方便。为了验证本文所提特征选择方法的有效性和可行性,本文在中文文本分类系统上将本文所提的特征选择方法与文档频特征选择方法以及X2统计量特征选择方法进行了对比实验。通过对文本分类混淆矩阵、类别查全率、查准率、F1值以及总体查全率、查准率、F1值的对比分析,本文得到如下结论:即无论是混淆矩阵中正确分类的文档总数,还是类别查全率、查准率、F1值还是总体查全率、查准率、F1值,本文所提特征选择方法相对于文档频特征选择方法以及X2统计量特征选择方法都有所提高,而实验过程中除了特征选择方法的不同外其它条件包括实验语料库、分词方法、分类算法、各种参数等都相同,从而证明了本文所提特征选择方法的有效性和可行性。