论文部分内容阅读
数据已经渗透到各个行业,成为重要的生产因素。随着大数据时代的到来,对文本信息处理技术的需求与日俱增,人工管理方式已经无法满足社会需求,因此,自动文本分类技术变得越来越重要,已成为广大科研团体研究的热点。本文在分析和总结文本分类框架、文本表示模型、文本预处理、特征选择、特征提取、特征加权、文本分类器以及分类性能评估的基础上,对文本特征加权和文本表示策略进行了深入研究。面向均衡数据集,提出了两种特征加权算法;面向失衡数据集,提出了一种特征加权算法,共计三种有监督特征加权算法。此外,针对有监督特征加权算法,本文提出了一种最优文本表示策略。取得的阶段性成果如下:1.基于类别信息的特征加权算法对于采用向量空间模型的大多数文本分类器来说,特征加权一直是分类的瓶颈,特征加权的效果直接影响分类器的分类性能。在分析传统特征加权算法的基础上,提出了一种新的特征加权算法。通过将基于词的特征转换为基于类别的特征,使数据集的特征维度由原始成千上万维降低到了与数据集的类别数相同的维度。从而使得特征表示矩阵不再是稀疏矩阵。相比其他特征加权方法,本文的方法不但可以提高文本分类精度,而且可以有效地提高分类速度、降低分类时间。2.基于类空间密度的特征加权算法在分析传统特征加权算法中的逆类别频率方法基础上,引入了类空间密度,进而将逆类别空间密度频率引入到了特征加权算法中。在度量特征的区分能力时,针对类别频率相同,但在此类别频率下文档频率不同的情况,可以为特征赋予不同的权重。该方法能更加客观地反映特征对分类的重要程度,有效地改善样本空间分布状态,使同类别样本更加紧凑,异类别样本更加松散。通过将tf*icf和icf-based方法中的逆类别频率参数更新为本文提出的逆类别空间密度频率参数,得到了两个新的特征加权算法:tf*ICSDF和ICSDF-based。实验结果表明,本文的特征加权算法可以获得较好的文本分类性能。3.面向失衡数据集的特征加权算法当采用常用特征加权算法对失衡数据集进行加权,经常不能达到预期的效果。主要是由于失衡数据集数据分布的特殊性所导致。本文在分析失衡数据集数据分布特点的基础上,提出了一种面向失衡数据集的特征加权算法。算法通过结合特征在正类别文档中出现的概率与特征在负类别文档中出现的概率两个方面,综合度量失衡数据集中不同特征对于文本分类的重要性,并根据其重要性赋予相应的特征权重。实验中,将提出的tf*WID特征加权算法与四个常用的特征加权算法(tf*idf,tf*ig,tf*chi2以及tf*or)在WebKB和Yahoo!Answers(100-1000)两个失衡数据集上,采用Rocchio分类器和支持向量机分类器,针对微平均F1值与宏平均F1值两个方面进行了对比与分析。结果显示,本文提出的特征加权算法对于失衡数据集分类,可以有效地提高分类性能。4.有监督特征加权方法的最优文本表示策略在分析传统文本表示策略的基础上(全局策略和局部策略),本文基于向量空间模型,提出了一种对于有监督特征加权方法的最优文本表示策略。提出的方法采用在训练集上寻找最优模型的思想,可以从所有类别的特征加权向量中,获得一个对训练集最优的特征加权向量,将其应用于测试集后,最终可以得到测试集的最优文本表示。在两个数据集(均衡数据集20Newsgroups和非均衡数据集Reuters-21578)上,对本文所提出的方法进行了验证。实验中采用两个常用的有监督特征加权方法(tf*or和tf*rf)对两个数据集的特征矩阵进行加权,应用提出的方法,在训练集上寻找最优特征加权向量,然后应用于测试集,最后采用支持向量机分类器进行分类。实验结果表明,本文提出的有监督特征加权方法的最优文本表示策略能够有效地提高分类性能。