加权关联规则优化算法研究

被引量 : 0次 | 上传用户:xieym28
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联分析是数据挖掘领域的主要分支,用于发现隐藏在数据中有意义的联系。该领域中,加权关联规则挖掘算法与传统算法相比,更有利于解决数据库中项目分配不均和重要程度不同的问题,因此相关研究越来越受到人们重视。本文重点研究加权关联规则算法。首先系统介绍了流行的加权关联规则模型,比较了他们的优劣势。在深入研究各个模型的优点的基础上采用了一种基于聚类和压缩矩阵的加权关联规则挖掘策略,挖掘加权频繁项集。其主要思想是采用矩阵作为数据库数据存储运算结构,运用空间换时间的思路减少数据库访问频率,利用聚类划分的方法分解数据库,进行分布挖掘,降低内存占用空间,通过局部频繁项集生成全局频繁项集,引入事务权重和数据库权重的概念优化权值计算方法,使其满足支持度度量的反单调性,提升拼接和剪枝水平,与传统加权算法相比,减少了访问数据库的频次,提高了候选项集剪枝效率,整体上提升了算法的性能和准确度。同时,为了避免由单支持度导致的挖掘低兴趣度的规则以及出现冗余无效规则等问题,本文借鉴动态更新的思想引入了多最小支持度的概念,结合垂直数据和项集等价划分的思想,设计了一种新的基于多支持度的加权关联规则挖掘算法(A New Algorithm of Weighted Association Rules Mining with Multiple Minimum Supports, NAWARM_MMS),该算法中不同项集对应给定的不同的最小支持度,通过对项目设置不同的支持度阈值,实现在不同重要程度的数据项中挖掘出数据量小,但用户更感兴趣、更有价值的关联规则。仿真实验中,通过测试在不同事务数、不同支持度、不同项目数以及不同项目稠密度的情况下算法的运行时间,验证了改进的基于聚类和压缩矩阵的加权关联规则算法,在处理低稠密度数据时,具有更大的优势,算法复杂度优于基本加权关联规则算法;而进一步的对于改进后的NAWARM MMS算法,测试在不同阈值整体水平和不同事务数的情况下运行时间,实验表明,由于垂直数据存储结构、矩阵压缩方法以及项集等价划分策略的引入,使得算法在I/O负载、候选项集和事务压缩规模上都得到优化,整体性能略优于传统多支持度算法。
其他文献
针对混合(C4~C6)二元酸废水特点,以CODCr、色度作为评价指标,采用生物流化床-Ag/TiO2光催化氧化组合处理技术对其进行处理,并对反应条件进行优化.结果表明,采用该组合处理技术
3G时代,渠道的争夺越演越烈,营业厅类实体渠道是电信运营商整个渠道当中投入比重较大、功能最全面的渠道之一。构建科学、合理的实体渠道绩效评估方法,对实体渠道进行正确的
六盘山地区是我国南北地震构造带北段的重要组成部分,在构造上位于华北断块区西部鄂尔多斯块体与青藏块体东北部祁连断褶带之间的构造转换部位。由于其特殊的构造位置和强震危
自20世纪末以来,社会组织作为第三部门开始受到人们重视。公益组织是社会组织中的一个重要类型,在公共服务供给和公共管理过程中,尤其是在扶助弱势群体、开展公益性社会服务
水是任何人类活动都离不开的物质。近年来,我国华北地区的地表水来水量逐渐减少,地下水水位持续下降,社会用水量远远超过降水量,水资源供需矛盾日益加剧。因此,利用合理的方法研究
企业无法以某一固定的资本成本来筹措无限的资金.当其筹集的资金超过一定限度时,原来的资本成本就会增加,在企业追加筹资时,需要知道筹资额在什么数额上便会引起资本成本的变
关于语素以及语素教学法对外汉语教学界的研究基本集中在共时层面。杨晓黎(2006)从历时角度提出了传承语素的概念,为对外汉语语素教学开辟了新的思路。本文基于传承语素的理
为了准确预测矿井涌水量,保障煤矿安全生产,以鄂尔多斯巴彦淖井田为例,采用地下水三维数值模拟理论和方法,通过对研究区水文地质模型的概化,建立了巴彦淖井田矿井涌水量预测
<正>~~
党的十四届三中全会通过的《中共中央关于建设社会主义市场经济体制若干问题的决定》把我国的社会主义现代化建设事业全方位地推进到了一个新的发展阶段。仅仅几年的时间,我