论文部分内容阅读
当前,科学技术突飞猛进,信息化进程不断加快,互联网日益普及,人们也因此有了越多越多的传播、获取、共享信息的渠道。但是,与此同时,人们也面临着巨大的挑战------“信息爆炸”。因此,人们急需找到一种方法,通过这种方法正确、方便地从海量信息中筛选真正对自己有用的信息。在这种情况下,文本分类应运而生。作为数据分析的一种重要形式,文本分类可对信息进行高效地管理,如今已被广泛应用于搜索引擎、数字图书馆、电子政务、邮件过滤等多个领域。作为文本处理的有效手段,文本分类包含了预处理、特征选择、文本表示、分类器选择、分类器训练、分类器测试以及分类效果的评估等步骤。简单来说,文本分类的作用是为文本预测类别标号。在文本分类的整个体系中,每一个环节都直接影响到最终的分类效果。预处理的作用是初步降维以减少冗余,这是为后面使用分类器所做的准备之一;特征选择能够去除噪声特征,同时也是文本降维的核心;文本表示能够将非格式化的文本转换为格式化的数据形式,以便计算机能高效地对其识别、处理;分类器担任判别类别标号的角色,通过训练使分类器学习到某个分类函数,这个分类函数能够将文本映射到某个类别,之后,使用训练得到的分类器对测试集进行预测,以检验分类器在新数据上的分类效果;分类效果评估则能够对整个分类体系作出全面、客观地评价。本文选取特征选择、文本表示作为研究重点,针对传统特征选择方法存在的不足,进行多方面的改进,并提出将特征选择方法和LDA模型相结合以弥补单独使用LDA存在的缺陷,从而进一步提高分类效果。首先,针对传统互信息特征选择方法忽视词频因素而存在的若干问题,本文提出了相对词频率、分散度以及绝对值最大因子。通过这三者改进传统互信息方法,以弥补其不足。其次,针对传统信息增益特征选择方法应用于不平衡数据集时,分类效果显著下降的情况,本文提出“最大词频率比”因子,得到一种改进的信息增益方法,其在平衡、倾斜数据集上均能获得较好的效果。最后,针对单独使用LDA主题模型所存在的分类精度不高的问题,本文提出将特征选择方法与此主题模型相结合进而进行文本分类的方法。作为主题模型,LDA不仅能够得到文本的主题概率表示,还能起到和特征选择方法类似的降维效果。但是单独使用LDA,分类精度并不高。因此,对于LDA,本文重点将其作为一种文本表示方法,在此之前,使用特征选择方法对文本进行处理,从而进一步提高分类效果。以上即为本文的主要研究工作。实验结果表明:本文所提出的改进的互信息特征选择方法、改进的信息增益特征选择方法能够弥补传统方法存在的不足。而且,与单独使用LDA相比,将改进的特征选择方法与LDA相结合能够得到更好的文本分类效果。