基于粗糙集的SVM层次文本分类技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:swordhero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类处理的对象是关系复杂且不断被更新的数据,本文主要针对文本分类层次分类和增量训练中存在的问题进行了深入研究。通过分析粗糙集理论中属性约简的算法思想,提出了基于粗糙集的特征词选择算法,选择出更具代表性的特征词语,避免了文本表示中维数过大的问题。在特征选择的基础上,基于虚拟树结构提出了一种新的层次文本分类算法。该方法通过预选择策略对分布不均衡训练样本进行调整,防止对大类样本过学习;在上层分类器采用多标签分类的方法,以降低上层错分类对下层分类器性能的影响;最后采用阈值策略淘汰历史样本,从而减少了增量训练时历史分类信息丢失,并基于此提出了一种基于边缘向量的增量式训练方法。最后,本文阐述了一个层次分类系统的设计与实现,并通过实验证明了本系统在分类性能上相对于传统分类方法的优势。
其他文献
随着金融业务的发展,业务变化越来越频繁,仅依赖业务专家总结业务规则的速度已经难以跟上业务变化的速度,采用数据挖掘的方法辅助业务规则快速发现和验证具有重要的实际应用
随着网络技术的发展,论坛开始出现并迅速的发展壮大。目前,论坛几乎覆盖了我们日常生活和工作的各个领域,经过数年的发展和累积,论坛中蕴涵着数量巨大且质量较好的知识资源。
FAS为薄膜太阳能电池板制造业提供了一整套工厂自动化解决方案。FAS由可视化图形界面系统、制造执行系统(MES)、设备自动化平台(EAP)组成。本文所讨论的设备自动化系统是基于EAP实现的,通过设备自动化系统使得工厂中所有的设备都在FAS的控制和协调下工作,以降低成本和提高生产效率。本文对设备自动化系统中的关键设备Laser Scribe进行了研究与实现。首先分析了Laser Scribe提供的自
随着大幅面彩色扫描仪和喷绘机的广泛应用,以及嵌入式技术的迅速发展,利用嵌入式系统来控制大幅面扫描仪和喷绘机协同工作就成为可能。本文以实现大幅面扫描仪和喷绘机的协同
移动Ad hoc网络作为一种新型无线通信网络,已经引起了人们的广泛关注。但同时它又是一个复杂的网络,所涉及的研究内容非常广泛。作为一种新型的网络,还有很多方面不够完善,新
近年来,P2P网络安全问题得到了工业界和学术界越来越多的关注,解决该问题的主要方法是在P2P网络中建立信任机制。目前,如何在P2P网络中识别出恶意节点,抑制和杜绝节点的恶意
随着Internet的迅速发展,互联网产生了海量的Web信息。尽管通过Web页面可以查询几乎所有领域的知识信息,但是由于由HTML构成的Web数据是一种半结构化的数据,使得该类型页面只能
与传统统计学理论不同,统计学习理论主要针对小样本统计问题,其不仅考虑到了渐近性能的要求,并且在有限信息的条件下亦可得到最优结构。基于这一理论的支持向量机算法建立在V
随着计算机网络的迅速发展,信息安全问题越来越受到人们的广泛关注。数字签名作为解决信息安全问题的重要手段之一,在电子商务、军事和通信等领域中得到广泛的应用。随着对数字
Web数据挖掘是数据挖掘技术和Internet应用研究相结合的研究领域,现已成为数据挖掘领域的重点研究方向。Web结构挖掘是Web数据挖掘中的一个很重要的方面,其经典算法有HITS算