基于FP-Tree的多层关联规则挖掘算法研究

被引量 : 0次 | 上传用户:dxc717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量数据中发现潜在的、有趣的知识的过程,是解决“数据丰富,知识贫乏”状况的有效方法。关联规则挖掘用于从大量数据中揭示项集之间的有趣关联或相关联系,是数据挖掘的一项重要研究内容,在现实生活中有着广泛的应用。根据规则集所涉及的抽象层的多少,关联规则可分为单层关联规则和多层关联规则。与单层关联规则挖掘相比,多层关联规则能够提供更加丰富、更具普遍意义的知识,能够满足更多用户的需求,因此对多层关联规则挖掘进行研究具有较大的实用价值。已有的多层关联规则挖掘算法如Cumulate 算法、ML-T2L1 算法,都是通过对Apriori 算法进行扩展得到的。这些算法仍采用候选生成并验证的方式得到频繁模式,该方式会在以下两个方面产生较大的开销:(1)需要反复地扫描数据库,这会导致巨大的I/O 开销;(2)需要产生大量的候选项集,并通过模式匹配来检查这些候选项集的频繁性,这会产生巨大的计算开销。因此这些算法的效率较低。FP_Growth 算法是一个高效的单层关联规则挖掘算法,它不需产生候选项集且只需扫描两遍数据库,有效地克服了Apriori 算法的缺点,因此该算法的效率较Apriori 算法有了大幅提高。通过对FP_Growth 算法进行扩展,本文提出了一个高效的多层关联规则挖掘算法MLAR-FP。MLAR-FP 算法采用的扩展措施如下:(1)在扫描数据库的过程中通过把每个项的全部祖先加入到事务中对每条事务进行扩充,该措施能够确保得到多层关联规则;(2)通过及时删除概念层次树中不是频繁项的祖先项来压缩搜索空间,提高挖掘效率;(3)避免产生冗余的频繁模式。为了验证MLAR-FP 算法的正确性和高效性,作者在某医药公司的销售数据上对其进行了实验,并和Cumulate 算法进行了对比。实验表明MLAR-FP 算法是正确的,并继承了FP_Growth 算法运行效率高的优点。MLAR-FP 算法使用分治策略挖掘频繁模式,因此该算法具有潜在的并行性。根据这个特点本文提出了针对工作站集群环境的并行MLAR-FP 算法,此算法采用的并行模型为粗粒度的主/从模型,并行策略为数据并行。考虑到各个计算节点处理能力的不同,算法使用动态分配数据的方式来平衡各个节点的负载。
其他文献
社会言情构成了张恨水小说创作基本叙事模式,也集中体现了他小说的叙事艺术成就。张恨水小说的艺术魅力所在,并非源于思想深度,而是叙事的技巧,不在于“新”,而在于“奇”。
微生物絮凝剂是微生物在生长过程中分泌的一类具有絮凝活性的高分子聚合物。与传统的无机和有机高分子絮凝剂相比,微生物絮凝剂的突出优点是无毒、易于生物降解、对环境友好
语文综合性学习是在新时期教育改革中出现的新事物,顺应潮流,与当代的社会发展相适应,现在不只是一种教育理念,更重要的是已成为一种教育实践。关注教育理论和实践的发展,积
<正>侯孝贤是蜚声国际影坛的华语电影大师,至今已执导过二十余部剧情片,其中如《风柜来的人》《童年往事》《戏梦人生》《悲情城市》《海上花》《刺客聂隐娘》等名作,先后获
目的:探索调气活血法治疗大鼠慢性萎缩性胃炎的疗效及其对胃酸分泌影响的机制。方法:采用N-甲基-N-硝基-亚硝基胍(MNNG)自由饮用的综合造模法复制大鼠慢性萎缩性胃炎动物模型
在经济的发展过程中,钢材具有非常重要的作用。随着钢铁技术的不断发展,我国的钢铁技术也不断取得发展,但是与世界先进国家相比,不管是在炼钢,还是在加工技术上都还存在很大
玻璃化转变温度(Tg)是聚合物重要的特性参数,高分子运动形式的标志,聚合物塑性的标尺。利用超临界二氧化碳(scCO2)能够降低聚合物的玻璃化转变温度,以及对聚合物具有较强增塑作用
研究背景和目的:α-干扰素已被广泛应用于慢性乙型肝炎的抗病毒治疗。复合干扰素是由11个干扰素α亚型的基因序列,用基因工程技术重组而成的新一代Ⅰ型干扰素。在体外实验中,
<正> “导”是为“读”服务的,这就必须“导”在关键处,讲在“点”子上。即善于抓住教材的重点、难点、特点、疑点,对学生进行点拨启发。教学《观潮》(第七册)一课,就可以这