论文部分内容阅读
文本分类技术是依据预先定义的类别,对网络中大量的未知信息进行分类,以提高信息的利用率,来实现信息对研究者的价值。文本分类包含文本预处理、文本语料库、构造分类器、特征降维、文本表示、测评六个部分。其中特征降维在诸多组成部分中占据着关键的地位,它在提高分类精度、节省空间、降低计算时间复杂度等方面起到最为重要的作用。特征降维包含两种方法,分别为特征提取与特征选择。特征提取是在原有的特征基础上依据一种函数映射关系,提取一个不同的新的特征子集,得到的这个特征空间能够更好的区分各类文本,并且特征之间独立性更强。特征选择是从已知的总特征集合中,利用特征值计算公式,选择区分类别强的特征作为分类的特征子集合。特征选择根据不同的出发角度可以得到不同的定义,其中在分类前有类别标记的被称为监督特征选择方法,分类前没有类别标记的称为无监督特征选择方法。本文研究工作包括以下两部分:首先,本文提出一种基于ReliefF特征选择算法——mRMR-ReliefF。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了不同词汇间的相互关联性。通过这种相关性,不但顾及到选择与类别联系性强的特征词,而且同时还顾及消除特征集中的冗余成分。通过三种算法的对比实验,表明本文算法为文本分类提供了更有效的特征子集。其次,本文提出了一种基于信息增益改进的TDpIG文本特征选择方法。首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益值,降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对照不同算法的测评函数值,表明本文选取的特征子集具有更好的分类能力。本文改进的两种算法,都属于监督类特征选择方法。从两种特征选择算法的不足出发对其进行相应的改进,以提高选择特征的质量,增加算法的精度,达到更好的效果。