文本分类算法的研究与改进

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wanqadscb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类可以为文本提供有序的组织,网络信息的增长使文本分类对信息处理的意义变得更加重要。二十世纪八十年代以后,基于机器学习的文本自动分类方法越来越成为主流,它具有周期短,效率高,节省人力资源等优点。但文本自动分类研究自开展以来,准确率一直不能达到令人满意的效果,如何提高分类准确率成为研究热点。本文较详细的介绍了文本自动分类的多种关键技术,分析了文本的向量空间模型的表示效力以及它对于分类效果的影响因素;然后针对朴素贝叶斯文本分类方法中“属性独立性假设”的不足,运用局部降维的思想提出了一种用互信息差值来表达特征项之间的相关性,对相关性高的特征采取适当融合来达到向量空间降维的方法。此方法首先对训练文本集中的每篇文本提取出原始的特征词,经过去除停用词、词义消歧的处理后,在类的内部利用信息差值来表达特征项之间的相关性,对相关性高的特征采取适当融合的方法来对特征向量进行局部降维。得出的向量与降维前相比,低频特征词的数目大为减少,高频特征词数目增多,且高频特征词的频度得到加强,特征词总的数目减少,向量的维数降低,对于所属类别具有更强的关联性和较好的表示效力,很好地达到了降维的目的。最后,运用此方法对朴素贝叶斯分类方法进行改进,还对具体操作时阈值的选取做了一些研究。实验结果表明,改进后的文本分类模型适合于文本分类的需要,提高了原有分类器的性能。
其他文献
随着计算机应用技术研究的深入发展,蒙古文信息处理技术也得到了迅速地发展。我国从上世纪70年代末就开始了蒙古文信息处理的研究工作,研究的重点主要集中在蒙古文文字处理方
掌纹识别作为一种重要的生物特征识别技术,具有安全性、方便性、稳定性等优点,因而在过去十几年里受到了广泛的关注并取得了大量的研究成果。然而,与传统的接触式采集相比,掌
桥梁结构作为现代交通系统的重要基础,其安全与健康不仅关系着国家的社会、政治、经济、国防等各项事业的健康有序发展,而且也直接影响着人民的生命、财产安全。然而,桥梁结构运
《中国家庭发展报告2015》指出家庭结构发展中家庭规模小型化和家庭养老需求与医疗养老结合的需求越来越大等特点。独居老人作为家庭成员中重要监护对象,多种老年疾病的影响
概念格理论,作为一种高效的数据分析工具,已经广泛地应用于数据挖掘、软件工程、信息检索等领域。其中概念和概念格是此理论的基础,在一般情况下,概念格中的概念数是输入背景大小
随着计算机网络的迅猛发展,社会化标签系统成为众多新型网络应用的不可或缺的一部分,并因其操作便捷、操作简单等优点深受互联网用户的喜爱。标签推荐系统可以推荐相应的标签
云计算已经成为人们工作、生活中不可或缺的一部分,尤其是提供海量存储的云存储服务。云存储服务由于其经济、易用、泛接入等优点,受到众多中小型公司、机构及个人用户的青睐
锂离子电池应用领域广泛,评估其健康状态成为研究热点也就不言而喻。但拥有复杂电化学特性的锂离子电池,其容量会伴随不断循环充放电过程呈现退化趋势,当容量退化至失效阈值(通常为额定容量70%~80%)时,即视为锂离子电池寿命到达终结状态。故进行锂离子电池剩余寿命预测研究,有利于提高系统可靠性,预防事故发生,具有重要研究及应用价值,已成为电池系统健康评估重要研究内容。近些年,在锂离子电池剩余寿命预测方法中
传统的入侵检测系统(IDS)存在着大量的问题:对未知网络攻击检测能力差、误报率高、占用资源多;对攻击数据的关联和分析功能不足,导致过多的人工参与;对于现在广泛使用的脚本攻击
网络的开放性和动态性使得信息系统所面临的用户需求和计算环境更加频繁地变化,从而要求信息系统应具备一定的自适应演化能力以灵活自主地适应这种变化。由于目前信息系统多属