一种基于特征选择的层次化文本分类算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:syf1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及,人们每天都要对Web上海量的数据进行处理,而Web上的数据大多以文本形式存在。如何对这些文本进行分类,首先是通过训练集获取的类别特征构建文本分类器,将待分类的文本输入到构建好的文本分类器中,然后将其划分到相应的类别中。但是在传统的文本分类中,并没有考虑类别间存在的层次关系,而简单的认为所有类别相互之间没有交集,同处于一个平面中,从而使得特征间存在着大量的冗余,因此如何结合类别的之间的层次结构对文本进行分类就是一个具有实际意义的课题。此外当数据集的分布不均衡时,如何提高不均衡数据集的分类精度,这也是目前文本分类方面一个重要的研究方向。本文首先对文本分类以及特征选择的背景和理论进行了概述,同时简要的介绍了目前文本分类的国内外研究现状与热点。在此基础上,进一步对层次化文本分类进行了深入的分析与研究,从两个方面重点分析了层次化文本分类中影响其性能和效果的因素,首先从特征选择的角度,对特征选择方法进行了分析,引入了层次相关度和层次冗余度等概念,提出了一种rrHTC算法用于剔除文本的冗余特征,减少了冗余特征对文本分类精度的影响,其次从改进分类算法的角度,针对SVM-KNN分类算法在面对不均衡数据集时的分类精度不高这一不足,通过引入样本中心距等概念,对SVM-KNN算法进行了改进,提出了c-SVM-KNN算法。最后本文通过采用20NewsGroups以及从门户网站网易上抓取的网页这两个数据集,对rrHTC算法以及c-SVM-KNN算法进行验证,并对它们的结果进行分析,实验结果表明,通过rrHTC算法进行特征选择后,利用c-SVM-KNN算法进行文本分类,可以有效的提高分类的精度。
其他文献
随着P2P网络技术的迅速发展和广泛应用以及移动网络环境的日趋成熟,互联网中的P2P网络技术已经开始向无线和移动设备扩展,并将在无线移动条件下获得较为深入的使用和发展。分布
浮雕是雕塑与绘画结合的产物,浮雕形式多样,从商代青铜器表面装饰纹,到汉代的画像石、画像砖,以及后来的碑刻、牌匾等,已经成为中国传统文化中的瑰宝。近年来,浮雕在城市美化环境中
近年来,数据挖掘引起了信息产业界的极大关注。其主要原因是随着信息技术和互联网的快速发展,在各个应用领域的数据库中储存了大量可以广泛使用的数据,并且迫切需要将这些数据转
互联网的迅速发展以及在各行各业中的广泛应用使人们深刻体会到了信息时代所带来的创造力和便捷。然而,伴随着网络数据爆炸式的增长,病毒以及各种恶意入侵攻击也变得越来越多,网
随着数据的爆炸性增长和数据重要性的不断增加,传统的存储体系结构已经不能满足数据存储的需求。SAN存储体系已经被广泛的研究和使用。iSCSI协议融合了SCSI协议和TCP/IP协议,
数据融合方法对于提升入侵检测模型的性能具有至关重要的作用,是当前网络安全领域中研究的热点之一。本文对数据融合方法进行了研究,提出了一种基于粗糙集和支持向量机的理论为
现行的K_匿名算法在设计属性值的泛化层次结构时,为图简便,往往忽略属性值的分布特征,而仅以机械的方式来确定其泛化域。当数据集内某些属性的值在一个较小区间里以高频度出现时
目标检测是模式识别和计算机视觉领域的重要研究课题之一,在军事侦察、智能交通、视频监控、人机交互等领域具有广阔的应用价值。在视频目标检测过程中,往往会出现外界环境干
弥散张量成像技术是核磁共振成像的模型之一,通过测量生物组织内水分子的弥散情况来进行成像。弥散张量成像技术对研究大脑的认知功能和神经结构的正常工作重要的意义。在大脑
人工视觉假体是目前解决视网膜病变所导致失明的最有效办法。国内外研究者在有限的植入电极所形成的低分辨率视觉下,不断努力和尝试,企图找到一些方法来帮助假体植入者,从最初的