数据流最大频繁项集挖掘算法的研究

来源 :东北大学 | 被引量 : 2次 | 上传用户:cyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流挖掘是应用数学与数据库领域研究的热点问题。频繁项集挖掘是数据流挖掘的核心问题之一。由于最大频繁项集包含了其子集所代表的频繁项集,能够最大程度地减小存储规模,因此,本文对数据流最大频繁项集挖掘算法进行了研究。主要工作如下:(1)对现有的数据流挖掘算法进行了研究和分析,指出了存在的问题,并对其进行了改进。在DSM-MFI算法的项集的计数中引入衰减率,得到了一个挖掘数据流最大频繁项集算法-DSM-AMFI算法。算法通过减少历史数据的计数,达到减少旧事务对当前挖掘结果的影响的目的,降低了挖掘的规模,增强了算法的动态性。实验结果表明,在密集数据流条件下,DSM-AMFI算法时间效率比原算法有显著的提高。(2)设计了前缀二叉树存储结构—PBT,结合Bitset结构,改变了传统的存储方式,进而给出了一个基于前缀二叉树的数据流最大频繁项集挖掘算法—DSMMFI-BPBT算法。在挖掘最大频繁项集过程中,由于仅对PBT中节点的项集进行位运算,不必存储位运算过程中产生的位串,减少了位运算的次数,降低了存储的规模。实验表明,本文算法的空间和时间效率优于MFI-TransSW算法;在平均挖掘长度较长和低闽值的情况下,算法的时间效率优于DSM-MFI算法。
其他文献
新课改背景下,教育将情感培养作为初中语文的教学目标.将情感教育运用到初中语文教学来具有不可比拟的优势,不仅有利于提高学生的语言能力,而且可以帮助学生培养健全高尚的人
作为下一代的网络核心,IPv6协议逐渐被人们所认可,如何实现IPv4向IPv6的平稳过渡将是一个重要的问题。双协议栈方案实用性强,而且原理简单方便,应用广泛,是IPv4/IPv6过渡中一
本文主要研究了两类有限环上线性码的MacWilliams恒等式及常循环码,具体内容如下:  (1)研究了环R1=Z4+vZ4(v2=v)上线性码关于t-Lee重量的MacWilliams恒等式。首先给出环R1上
本文研究李超代数osp(1|2n)的双参数量子超群Ur,s(osp(1|2n)).利用生成元和关系式,首次给出了李超代数osp(1|2n)的双参数量子超群Ur,s(osp(1|2n))的定义,刻画了其上的Z2阶化Hopf代数结构.
学位
钢铁是现代人类社会使用的最广泛和最重要的材料之一,是国民经济持续发展的基础。高炉炼铁是钢铁工业的上游主体工序,它的发展直接关系到后续工序的发展,且对钢铁工业的节能
1989年Salehi提出了光正交码(Optical Orthogonal Code,OOC)的概念,它作为一种签名序列应用于光码分多址(Optical Code Division Multiplex Access,OCDMA)系统.在这个系统中,每个
引言rn面对新课程改革,传统的课堂教学已不再适合学校教学的需要,随着网络不断的普及,高科技产品进入校园,尤其是多媒体课件、投影仪、电子白板等信息技术应用于课堂教学之中
随着经济全球化的加快发展,传统企业间的竞争模式已经转换成供应链与供应链间的竞争模式,众多企业和学者都开始关注供应链管理。因此,在现实生活中,供应链中制造商和零售商通过付出各自的努力来提高供应链的整体绩效。而且,在当前的随机市场环境中,不断更新的技术和需求的个性化的快速发展,使得产品更新换代的速度更加频繁,从而导致不确定需求产品不断增加。在传统供应链中,风险和公平两种行为偏好的存在,使得人们并不只是
只有通过在课堂上让学生通过朗读,把课文读通顺,读流利,读出感情,把文字变成画面,才能有效地提高学生的理解能力和语言的运用能力,因此,在教学中要注重学生的朗读训练。