数据流聚集查询和频繁模式挖掘的研究

来源 :东南大学 | 被引量 : 19次 | 上传用户:cq823285326
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流模型的出现对传统的数据管理技术提出了巨大的挑战,由于数据的流动性和无限性等特点,已有的数据库技术无法对数据流数据进行有效的管理,因此,必须进行数据流管理新技术的研究。数据流管理技术已经引起了数据库界的广泛关注,成为当前的一个研究热点。研究数据流相关技术不仅有重要的学术价值,而且在传感器网络、气象监测与分析、移动物体位置跟踪、股票分析、邮件过滤、网络监控与安全等领域有着巨大的应用前景。本文对数据流管理系统和数据流挖掘中的若干关键问题进行了深入探索,主要有以下内容:(1)数据流管理系统的体系结构:面向高速数据流,提出了一个基于硬件预处理的数据流管理系统体系结构。目前已有的原型系统都是从查询优化、系统调度等方面来提高数据的处理速度,在高速数据流环境下都存在明显的不足,因此,本文从一个全新的角度构建新一代数据流管理系统,在体系结构上采用软硬件协同的思想和前端硬件预处理技术,实现数据的高速处理。(2)高速数据流聚集查询:目前已有的聚集算法绝大多数是采用近似技术,以牺牲精度来换取速度的提高。随着硬件技术的快速发展和硬件成本的迅速下降,软硬件协同技术逐渐引起了人们的关注。本文提出了一种软硬件协同的高速数据流聚集查询方法,发挥了硬件在处理速度上的优势和软件在灵活性方面的长处,也研究了提高查询资源共享度的方法。(3)分布式数据流增量聚集查询:分布式处理是数据流管理系统发展的必然趋势。而在分布式系统中,传输量往往是系统的主要瓶颈,因此,本文研究并提出了一种分布式数据流增量聚集方法,可以显著地降低系统的通信量。(4)数据流频繁闭合模式:频繁闭合模式能够唯一地决定所有的频繁模式及其准确的支持度,并且往往数量比频繁模式小几个数量级,在实际中更容易理解和应用。本文研究了动态数据流环境下的频繁闭合模式挖掘,目前还很少有这方面的研究报道。滑动窗口和界标窗口是数据流环境下两种最重要的窗口类型,本文分别研究并提出了基于滑动窗口和基于界标窗口的数据流频繁闭合模式挖掘新算法,算法具有较好的适应性和可扩展性,用户可以根据需要,通过调整允许误差在执行效率和结果精度方面取得平衡。(5)数据流变化检测:在数据流环境下,模式的改变往往比正常模式提供更多有价值的信息,因此,数据流变化检测是数据流挖掘的核心问题之一。本文运用信息熵理论,从频繁项集角度出发,提出了一种基于最大频繁项集信息熵的数据流变化检测方法,不仅可以反映关联规则挖掘中频繁模式的变化,而且也可以有效地反映数据集的改变。
其他文献
本文从空间多点信息采集处理技术及其在虚拟现实中的应用出发,针对目前光学运动捕捉所存在的运动跟踪与重构的质量和速度等各种问题展开了研究,包括提高跟踪质量的策略和改善
济宁市医患维权协会成立近四年来,在济宁市委、市政府的关心和各有关方面的大力支持下,积极主动地开展工作,承担了市区各医疗机构发生的80%以上的医患纠纷调处工作,无可非议地
在疫苗预防接种损害责任的认定中,因果关系的证明非常关键。本文首先对日本仙台某小学生接种疫苗损害救济案进行分析.在此基础上提出观点:日本法庭强调预防接种损害中因果关系的
随着全民阅读理念的广泛普及,图书馆的发展也受到了广泛关注。而阅读人数与书库空间之间的矛盾,也成为了制约图书馆发展的一大因素。目前,如何拓展图书馆空间,如何构建新的管理模
进入e时代的今天,人们越来越追求快节奏的生活方式.无论身处何地,人们都希望能与他人保持畅通无阻的联系.移动通信业务的不断完善与升级,使这种愿望成为可能,随着手机用户的
20世纪,一个独特的生命个体以其勇敢的方式震撼了世界,她就是海伦·凯勒——一个生活在黑暗中却又给人类带来光明的女性,一个度过了生命的88个春秋,却熬过了87年无光、无声、
在当今的制造企业信息化和信息系统智能化背景下,分析制造企业虚拟装配系统的发展现状和面临的制造知识缺乏问题,提出了应用智能理论体系中的粗糙集理论进行制造知识发现的解决
“肖志军拒签案”引发了法学界及整个社会的巨大震动.是什么让肖志军的拒签造成了“一尸两命”的惨案?笔者针对该案中患者家属签字的法律效力进行分析后认为,患者家属不能代
随着WCDMA制式手机的普及,相对超外差或是低中频接收机,零中频或直接变频(DCR)接收机由于体积小,成本低的优势已经成为主要的接收机架构。本文主要研究了为满足3GPP规范,WCDMA