论文部分内容阅读
面对Internet上日益膨胀的信息,人们常常感到无所适从,迷失在这些海量的信息资源中。如何准确而高效地从这些资源中获取需要的信息成为目前众多研究者面临的一个重要难题。文本分类技术作为组织和管理数据的有效方法,可以在很大程度上改善Internet上信息杂乱无章的现象,压缩检索空间,加快检索速度,提高查询精度。特征词权重计算是文本分类的一个核心组成部分,其计算的准确与否会直接影响文本分类的结果。本文首先分析了传统的特征词权重计算方法TFIDF的优缺点。然后针对该算法存在的缺点,提出了一种新的基于信息增益和信息熵的特征词权重计算方法,该方法能够使特征词权重的计算结果更加准确,从而达到提高文本分类准确率的目的。本文的主要研究工作如下:①分析各特征选择算法的优缺点,并对常用的DF、IG和CHI三种特征选择算法进行对比实验。实验结果表明IG算法的效果较好,因此本文采用IG算法进行特征选择。②详细介绍现有的特征词权重计算方法:布尔权值法、文档频率、熵权值和TFIDF算法。然后对目前最常用的TFIDF算法的优缺点进行分析,并针对其缺点总结了现有的已存在的改进方法。③针对传统TFIDF算法的缺点,提出了一种新的特征词权重计算方法TFIDFIGE,该方法引入了信息增益和信息熵两个重要因子。与传统的TFIDF方法相比,本文提出的方法考虑了特征词在类间、类内的分布信息对其分类能力的影响,提高了特征词权重计算的准确性。除此之外,通过消除孤立点特征词,有效地降低了文本表示的特征维度,减少了文本分类的时间和空间复杂度。最后,采用网络爬虫从网易新闻、新浪新闻和凤凰新闻网上下载文本数据集,并从中随机选择7700篇文本作为实验数据集。然后将本文提出的TFIDFIGE方法与传统的TFIDF和TFIDFIG方法在KNN和Na ve Bayes两种不同的分类器下进行分类对比实验。实验结果表明,本文提出的方法改善了传统TFIDF方法的不足,在文本分类的准确率、召回率和F-measure指标上均优于其他两种方法。