基于边界快速求解EPs的算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户:woaibaobei123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
显露模式(Emerging Patterns,EPs)是指那些从一个数据集到另一个数据集支持度发生显著变化的项集,它们能够捕获数据库中两个数据集之间的多个属性上的差异,可以用来建立分类器。近来已经提出了一系列基于EPs的分类器,如CAEP、JEP-Classifier、DeEP、BCEP、CEEP等。相关研究表明,它们的分类精度显著的优于传统的分类器。因此,EPs的挖掘具有重要的意义。 EPs的有效挖掘是一个具有挑战性的课题。因为,(ⅰ)EPs不具有Aptiori的性质,即EP的超集和子集都不一定是EP;(ⅱ)在挖掘EPs时,如果数据集维数较高或支持度阈值较低,需要考察的候选项数量巨大。因此,朴素的挖掘算法效率太低而几乎不可行。 Dong和Li首先把集族闭区间的表示引入到EPs的挖掘,提出了利用集族边界来表示EPs,利用边界运算来挖掘EPs。基于边界的EPs挖掘算法提高了EPs的挖掘效率,进而使得EPs的有效挖掘具有可行性。然而,已有的边界算法效率仍然很低,并且所挖掘的结果需要用一组上下边界表示,形式不自然,枚举EPs的效率低。 本文首先提出了一种改进的边界运算算法FFBD(Filter First Border Differential,FFBD),该算法在求解差区间的左边界时,逐层迭代扩展,并采取优先过滤的策略:在每层迭代前,考察上层迭代的中间结果,选择其中的一部分扩展为候选项,另外一部分作为过滤非最小项时的比较空间,提高了算法的效率。 然后,我们证明了具有相同左边界的两个任意闭区间的差是闭的,可以用一对上下边界表示。在此基础上,本文提出了一种新的边界运算算法EUBBD(Expanded Upper Border Border-Differential,EUBBD),能够有效地计算具有相同左边界的两个任意闭区间的差,返回一对上下边界。 FFBD和EUBBD都是通用的集族区间边界运算算法,我们在此基础上可以构建挖掘任意给定支持度和增长率EPs的挖掘算法。
其他文献
数据挖掘技术是当前计算机技术的研究热点之一,关联规则的研究是近几年研究较多的数据挖掘方法,在数据挖掘的各种方法中应用也最为广泛.较低支持度的项集在传统的关联规则挖
联机分析处理(OLAP)是当前数据仓库应用和决策支持系统(DSS)的研究热点.OLAP查询通常需在海量数据上进行即席(ad hoc)的复杂聚集查询,并要求及时向用户提供分析数据,用以辅助
分子对接旨在预测研发许多疾病药物的先导化合物,这在生物信息学的药物设计过程中有着举足轻重的作用。然而,其需要巨大的计算成本。为此,缩短分子对接时间消耗将有效的加速药物
随着网络技术与应用的不断发展,计算机网络在我们的日常生活中已经变得越来越普遍。这些网络的发展使得大到国家经济命脉小到个人日常生活严重依赖于计算机网络,因此网络运行的
电子病历文本中的时间信息,对于标识患者从入院到出院期间不同阶段的病情变化,有着不可替代的作用,因而时间信息抽取在医学领域中受到越来越多的关注。时间实体抽取难点在于:电
RadM造型系统是我们针对虚拟现实场景造型和虚拟角色造型的需要,构造的一个界面简洁友好、操作方便的造型系统。为了使该系统输出的模型能够以更优化的形式提供给大多数的实时
随着互联网的快速发展,信息安全问题显得日益重要。相关网络安全协议应运而生,而它们的基础都是安全高效的加密算法,椭圆曲线加密系统与其他公钥加密系统相比有许多优点,受到国内
该论文从计算机视觉的几何理论出发,针对计算机视觉中的一些热点问题进行了研究.论文的主要研究内容及研究成果如下:●首先对图像匹配问题进行了研究.图像匹配是立体视觉、运
元搜索引擎通常被称为搜索引擎之上的搜索引擎。用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一
医疗术语的翻译对于科技交流十分必要。然而,由于医疗术语数量巨大,并有一定的组合特性,不能完全由字典覆盖。此外,医疗术语的翻译既有领域特性,又有句法特性,具有一定的难度。