基于信息增益和信息熵的特征词权重计算研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:guoyuan22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对Internet上日益膨胀的信息,人们常常感到无所适从,迷失在这些海量的信息资源中。如何准确而高效地从这些资源中获取需要的信息成为目前众多研究者面临的一个重要难题。文本分类技术作为组织和管理数据的有效方法,可以在很大程度上改善Internet上信息杂乱无章的现象,压缩检索空间,加快检索速度,提高查询精度。特征词权重计算是文本分类的一个核心组成部分,其计算的准确与否会直接影响文本分类的结果。本文首先分析了传统的特征词权重计算方法TFIDF的优缺点。然后针对该算法存在的缺点,提出了一种新的基于信息增益和信息熵的特征词权重计算方法,该方法能够使特征词权重的计算结果更加准确,从而达到提高文本分类准确率的目的。本文的主要研究工作如下:①分析各特征选择算法的优缺点,并对常用的DF、IG和CHI三种特征选择算法进行对比实验。实验结果表明IG算法的效果较好,因此本文采用IG算法进行特征选择。②详细介绍现有的特征词权重计算方法:布尔权值法、文档频率、熵权值和TFIDF算法。然后对目前最常用的TFIDF算法的优缺点进行分析,并针对其缺点总结了现有的已存在的改进方法。③针对传统TFIDF算法的缺点,提出了一种新的特征词权重计算方法TFIDFIGE,该方法引入了信息增益和信息熵两个重要因子。与传统的TFIDF方法相比,本文提出的方法考虑了特征词在类间、类内的分布信息对其分类能力的影响,提高了特征词权重计算的准确性。除此之外,通过消除孤立点特征词,有效地降低了文本表示的特征维度,减少了文本分类的时间和空间复杂度。最后,采用网络爬虫从网易新闻、新浪新闻和凤凰新闻网上下载文本数据集,并从中随机选择7700篇文本作为实验数据集。然后将本文提出的TFIDFIGE方法与传统的TFIDF和TFIDFIG方法在KNN和Na ve Bayes两种不同的分类器下进行分类对比实验。实验结果表明,本文提出的方法改善了传统TFIDF方法的不足,在文本分类的准确率、召回率和F-measure指标上均优于其他两种方法。
其他文献
大庆萨尔图油田南二区西部位于大庆长垣萨尔图油田背斜构造的轴部,北起南一区三排,南至南二区三排,西起葡II组内油水边界线,东至萨大公路,该背斜的枢纽走向为北北东向,背斜西
文章探讨了在数学学科的教学中多媒体技术显示的优势和不足之处,并对如何在数学教学中更好地使用多媒体提出若干建议。
我国当前文学批评模式主要表现为两种形式:不顾文学的审美特性,代以道德、政治为标准的道德判断或政治判断;不顾文学阅读的感性体验,采用某种理论对作品进行技术分析的智性判断。
比较五味子乙素(Sch B)与右丙亚胺(DEX)对阿霉素(DOX)诱导大鼠急性心脏毒性的保护作用。将SD大鼠随机分为6组,生理盐水组、阿霉素组、Sch B 80 mg·kg-1+阿霉素组、Sch B 40
设计了一个具有计时、计费和车辆进出管理功能的停车场管理系统,以方便管理人员对停车场进行高效、快捷的管理.该系统应用在停车场的出入口,显示停车场车位信息,并对出库车辆
目的研究观察护理干预对慢性乙型肝炎患者治疗依从性及生活质量的影响。方法选取2014年5月~2016年5月我院收治的82例慢性乙肝患者,按数字法分为观察组和对照组,每组各41例。
中子是用于核反应非常好的轰击粒子,因为它不带电,即使在非常低的能量,也可以引起核反应,中子在核裂变中起着非常重要的作用。中子呈电中性,不能产生直接电离被直接探测,只能