基于关联规则的文本分类研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:qingyong339
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动化文本分类是数据管理的重要组成部分,目标是自动地将文本划分到已知的类别中去。基于关联规则的文本分类方法相对于其他的文本分类方法,不仅可以产生易于理解的分类规则,同时还具有良好的分类精度与分类效率,成为了当前文本分类算法研究的热点之一。本文分析了当前关联规则分类方法存在的两个问题。一是直接利用关联规则进行分类,在分类决策时可能会重复计算某些训练文本的支持度,从而过于强调某些训练文本的分类作用。二是仅根据特征词的权重来确定规则权重会过于强调特征词的分类作用,忽视关联关系的分类作用。针对以上问题,本文提出了改进的关联规则文本分类算法WCCPF。WCCPF主要有三个方面的改进:第一,更加合理的规则权重。新的加权方法不仅根据训练文本,还考虑到待分类文本对规则权重的影响,并通过引入相似度计算使得规则权重更加合理。第二,改进CR-tree的分类器CPF-tree。新的分类器可以快速地根据待分类文本动态地产生分类规则,以避免在分类决策时重复计算训练文本的支持度。第三,新的剪枝方法。在成熟的剪枝方法基础上,新的剪枝方法利用最大频繁项集对新的分类器进行剪枝。实验结果表明本文的分类算法提高了文本分类的精度。
其他文献
在当今这个信息时代,随着计算机技术突飞猛进的发展,各种智能化机器也走进了人们生产生活的各个方面,致使人们渴望与机器之间的交流能像人与人之间的交流一样自然流畅。这种
随着软件的广泛应用,特别是软件在尖端领域的应用,软件的可靠性成为一个非常重要的问题。软件的可靠性主要取决于软件开发的方法与过程,同时,又取决于软件系统的测试与验证。UML
由于Internet上数据具有异质性和多样性的特征,导致同一个领域中不同网站的结构也有很大差别,因此,用户要从Web上逐渐增多的海量数据中找到自己感兴趣的信息变得日益困难。目
随着经济全球化步伐不断加快,金融领域洗钱活动日益猖獗,并对国家经济稳定造成巨大危害,目前引起国际社会的广泛关注。洗钱势必助长走私、贩毒、贪污腐败、恐怖活动等,严重威胁全
近年来,随着web信息资源的快速增长,通用搜索引擎存在无法检索所有页面的问题,也不能满足人们日益增长的个性化服务需要,因此各类适应特定人群需要的主题搜索引擎应运而生。
随着计算机及网络技术的发展,网络环境下的案例教学是目前国内外研究的热点。在网络环境下,案例作为案例教学系统中的关键资源,它是前人对特定领域知识经验的总结。不同学科
三维表面重构是计算机视觉领域中一个至关重要的经典问题,是进行图像理解和三维目标识别的关键技术之一,它架起了机器自动完成从客观实体到抽象感知的桥梁,使得利用其来自动
视频车牌检测技术是智能交通领域中研究的热点问题,它作为机器视觉及模式识别研究领域里长期关注的一个重要课题,具有极高的学术研究价值和重要的实际应用价值。同时,Adaboost算
在通信技术和网络技术飞速发展的今天,企业收集、传递、整理信息的途径越来越多,效率要求越来越高,传统传真的机械传真机收发方式已经无法满足企业信息化的要求。本文结合某
随着视频与图像处理技术的发展,基于摄像头的视线估计技术作为人机交互领域的一个重要分支受到了广泛关注。传统的视线估计技术大多采用瞳孔角膜反射向量法,因为它具有良好的