论文部分内容阅读
随着互联网技术的迅速发展,文本数据被数以万计的特征充实。而面对如此海量的文本资源,想要高效地从这些文本中获取有价值的信息,仅仅依靠传统的人工文本分类方法已经无法应对。近年来,随着机器学习技术的不断成熟,利用机器学习算法对文本进行自动分类,成为了当今学术界研究的热点和难点。文本分类技术作为数据挖掘技术的主要分支,可以有效地满足大数据发展下,文本自动分类的需求。然而在大量的数据中,将文本进行高效准确地分类并不像想象中的那么简单。一般需要经过文本预处理、特征选择、特征加权、分类算法的选择等步骤来实现。而这些步骤中,每一个环节所使用的相关算法,仍然存在着许多的不足。其中,特征选择算法和文本分类算法是文本分类过程最为关键的两个部分,直接影响着分类器最终的分类性能。因此本文分别针对这两个部分进行了研究,主要工作如下:1、本文对文本分类的整个流程进行了深入研究,由于特征提取在整个分类过程中尤其重要,所以本文针对常用的四种特征选择算法的优缺点做了详细的总结和分析。并且在英文数据集20NewsGroup和Reuters上使用不同的分类器进行实验验证,实验结果表明卡方校验算法特征提取效果最好,所以本文最后使用卡方校验特征选择算法用做特征提取。2、针对传统的TF-IDF算法未考虑特征文档在类别中信息增益问题,将特征项文本对于类别的信息增益引入到TF-IDF算法中,设计了一种基于TF-IDF~*IGD加权的朴素贝叶斯分类算法。首先计算出各个类别的信息熵,然后计算各特征文档在每个类别中的条件信息熵,利用两者的差值计算出单词在各个类别中的信息增益,把该信息增益反映在权重中,从而提升分类性能。在英文数据集20NewsGroup和Reuters上进行相关的仿真实验。实验结果表明改进算法的宏F1值更优,总体分类性能评价指标提升了2%。3、针对TF-IDF~*IGD算法特征权重不能准确表征其贡献度大小的缺陷,从特征二维信息增益入手,结合特征文本信息增益和特征类别信息增益,精准的衡量权重大小,设计了一种基于IGDC加权的朴素贝叶斯分类算法。首先计算特征类别信息增益,然后计算包含特征的文本类别信息增益,最后把二者相乘并进行归一化处理。在英文数据集20NewsGroup和Reuters上进行相关的仿真实验。实验结果表明改进算法的宏F1值更优,总体分类性能评价指标提升了5%。