客观兴趣度模型及其在关联分类中的应用研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:hnyqk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,数据库应用的不断深化,数据挖掘已成为当今研究的热点之一。其中,关联规则挖掘和分类规则挖掘是应用范围较为广泛的两个分支。由于关联规则具有因果特性,当关联规则的后件表示为某种类别时,关联规则就具有了分类规则的特性。因此,关联规则挖掘可以与分类规则挖掘技术相结合,继而得到了一种新的分类方法——基于关联规则的分类。传统的关联分类挖掘算法主要采用基于一般频繁项的关联规则算法,往往会产生大量的分类关联规则,并且其中存在大量的冗余规则,不利于分类器的建立和使用。虽然目前已提出了一些高效的关联分类算法,但仍存在一些不足之处。本文在现有的兴趣度模型及关联分类挖掘算法的研究基础上,提出了一种新的客观兴趣度模型和一种改进的关联分类算法,论文的主要工作如下:(1)对关联分类挖掘的基本理论进行了总体的研究,包括关联规则挖掘和分类规则挖掘的基本概念,挖掘过程,并介绍了两种经典的关联分类挖掘算法,在此基础上指出了关联分类挖掘的研究方向。(2)如何从大量的关联模式中筛选出用户感兴趣且有价值的规则,是算法研究的重要内容之一。由于支持度-置信度框架模型有一定的局限性,本文在总结分析已有的兴趣度模型下,提出了一种新的客观兴趣度模型,用来修剪无趣的规则,从而筛选出真正有价值的规则。并通过实例和实验证明该兴趣度模型的有效性和实用性。(3)针对现有的经典关联分类算法的不足,提出一种基于D-Miner的关联分类算法,该算法在产生分类关联规则时只需要扫描事务数据库一次,通过生成频繁闭项集,大大减少分类关联规则的产生数量。此外,新算法结合置信度、兴趣度模型以及数据库覆盖策略对规则修剪进行改进,占用的存储空间相对减少。理论分析和测试实验证明了新算法在性能上的优越性。
其他文献
随着网络应用的飞速发展和大规模数据仓库技术的广泛应用,人们越来越容易获得来自各个方面的大量信息。与此同时却也面对着“数据丰富,但信息贫乏”的挑战。因此人们迫切需要可
时空数据库技术是计算机科学的新兴领域,用来存储和管理空间位置或空间范围随着时间变化的时空对象。随着移动通信、无线定位等技术的迅速发展,移动信息服务受到越来越多地关
脑-机接口(Brain-Computer Interface, BCI)作为一门交叉性学科,涵盖了生物医学、神经科学以及计算机科学等,已成为脑科学研究热点。在BCI研究中,脑电信号(Electroencephalog
RNA是生物遗传信息的中间载体,参与蛋白质合成,在细胞分化凋亡、生物发育、疾病发生等方面起着重要作用。RNA二级结构是由碱基配对与核苷酸链折叠而成的茎环空间结构,其茎环
学位
在现代信息社会里,电子文档已经成为最常用的信息保存和使用形式。无论是政府部门的政府公文、会议记录、涉密文档,还是企事业单位的发展规划、设计图纸、产品配方、软件源代
随着利用计算机犯罪的事件越来越多,计算机取证技术(Computer Forensics)逐渐成为人们研究与关注的焦点。作为计算机领域和法学领域的一门交叉科学,计算机取证常被用来解决大
随着科技的不断进步,信息产业快速增长,应用范围逐步增加,带来的网络攻击和破坏也越来越多,信息安全技术愈发受到重视.可是无论信息安全技术在这数十年如何发展,网络安全技术
随着互联网的快速发展,搜索已成为当前最重要的网络基础应用之一。但是,目前的搜索结果并不能让人足够满意。对搜索引擎来说,如何通过用户提交的查询关键字,返回满足用户需求
在现在社会中,无论在国际上还是在国内人们都普遍认为色情网页会毒害青少年,危害他们的身心健康,阻碍他们的健康发展,有的甚至会因此而走上犯罪的道路。因此有必要针对色情网
随着移动互联网技术和Web2.0技术的发展和成熟,以及移动智能终端快速普及,人们在社交网络中的参与度随之提高,社交网络也成为大部分人必要的生活工具。近几年社交网络中的数