基于频繁项集的互补替代关系挖掘算法

被引量 : 0次 | 上传用户:yin2002cn2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪80年代以来,随着数据库和信息技术的发展与广泛应用,各个应用领域均累积了海量的数据,且数据呈几何级数增长。而存储在大型数据库中的海量数据包含了大量的、有利于决策者作出英明判断的信息。但是由于缺乏强有力的数据分析工具,这些数据就变成了无人问津的“数据坟墓”。这样,基于直觉和经验的决策者往往不能做出有利于应用领域的决定,使得这些包含有价值的数据无法发挥它们应有的决策指导作用。如何从海量数据集中提取出有利于商务决策的信息成为各个领域的需求,在这种情况下,数据挖掘应运而生,从不同的角度以不同的形式为商务策略、科学等各领域提供依据,推动了信息技术的迅猛发展。本文研究的两项工作:首先,频繁项集挖掘作为关联规则产生的首要步骤,其挖掘效率的高低直接影响着关联规则产生的总体效率。而数据集扫描次数和支持数计算效率一直是影响频繁项集挖掘的主要因素。本文以shariq bashir提出的TOP-N闭频繁项挖掘算法为基础,利用位向量映射技术,提出了基于索引的频繁项集挖掘算法。该算法用位向量表示数据集,仅需一次扫描数据集。频繁项集的挖掘过程采用集合枚举树的节点构造过程来表示,在创建节点枚举项的尾项支持数时,利用枚举项集的位索引,计算枚举项合并形成的新项集的支持数,同时引入广度扩展剪枝和区域索引跳过策略,从而快速地挖掘出频繁项,有效地提高了算法的执行效率;实验结果表明,该算法在稀疏数据集上有很高的运行效率。其次,由于挖掘出的频繁项集可能包含大量的用户不感兴趣的规则,同时如果没有进一步的分析或领域知识,频繁项集并不能直接用于预测。如何消除频繁项集中用户不感兴趣的频繁项是频繁项集用于指导实践的瓶颈。所以,本文在基于索引的频繁项集挖掘算法基础上,本文又提出基于频繁项集的互补替代关系挖掘算法。该算法通过对已挖掘出的各频繁项集中的频繁项进行相关性计算,挖掘出频繁项之间的互补替代关系,去除噪声数据的影响,以图形的方式显式地向决策者展示出各个频繁项之间的互补(或替代)性,更便于决策者做出准确、合理的判断。实验表明,CAG比频繁项集表示的信息更有效,更精确。
其他文献
《故事新编》研究一直受到研究界的关注。21世纪初年(2000—2005)《故事新编》研究主要有五个动向:主题意蕴研究;现代及后现代手法研究;文体及叙事研究;创作心理及历程研究;比较
线粒体铁代谢的研究主要包括两个方面:铁在胞质和线粒体之间的转运和调控;铁硫簇和血红素在线粒体内的合成与转运。目前认为线粒体铁的转入主要是与mitoferrin1/2(MFRN1和MFR
随着我国进入老龄社会,老年抑郁症的患病率逐年攀升,给家庭和社会都带来了很大的压力和挑战,引起了医学领域乃至全社会的广泛关注。由于老年抑郁症迄今为止病因仍不明确,且缺
随着信息社会的到来,世界各国掀起了信息公开立法的高潮,我国也不例外。随着《中华人民共和国政府信息公开条例》的颁布实施,信息公开逐渐成为公众关注的热点,政府信息公开行
20世纪70年代初期,政府绩效评估作为一项重大的政治活动开始兴盛于各西方国家,作为西方政府改革普遍采取的一项重要措施,并对评价和改进政府绩效、推进政府管理理念的创新具
目的:观察中药双心汤治疗稳定型冠心病胸痛患者合并抑郁情志障碍的临床疗效,探讨疏肝解郁、调和气血法对治疗稳定型冠心病合并抑郁的有效性。方法:选取稳定型冠心病胸痛合并抑
改革开放以来,我国对外直接投资取得显著增长。截至2009年底,中国12000家境内投资者设立对外直接投资企业13000家,分布在全球177个国家(地区),投资覆盖率为72.8%。对外直接投
有关恐怖主义犯罪问题的研究一直是国内刑法学界和国际刑法学领域的研究热点。近些年来有关恐怖主义犯罪问题的文章不胜枚举,但是我们看到在有关这些问题论述中,一个最集中的
目的探讨跟骨骨折的病因病机、分型和诊治方法,比较骨圆针撬拨复位法和切开复位钢板内固定法治疗SandersⅡ型和Ⅲ型跟骨骨折的疗效评估。为临床治疗跟骨骨折选择合适的方法提
当前,我国的《国家赔偿法》中规定国家赔偿的范围不包括公有公共设施致害。然而伴随着经济社会的发展,我国的国情已经发生了重大变化,现代的行政模式也逐渐的从权力行政开始