【摘 要】
:
数据流是按时间顺序到达的一个连续数据组成的一个序列。近年来,挖掘数据流的应用越来越广泛。在动态数据集上挖掘频繁项是一项困难的任务,也是一个热点。流数据频繁项挖掘是
论文部分内容阅读
数据流是按时间顺序到达的一个连续数据组成的一个序列。近年来,挖掘数据流的应用越来越广泛。在动态数据集上挖掘频繁项是一项困难的任务,也是一个热点。流数据频繁项挖掘是数据流挖掘中的重要组成部分。目前数据流频繁项挖掘算法的研究成果主要有基于Hash的和基于抽样的。本文首先对这两类的经典算法的主要思想进行了探讨,对这些算法在误差范围、空间复杂度和单项处理的时间复杂度等方面重点进行了比较。接着,本文重点对数据流频繁项挖掘的EC算法进行了研究探讨。虽然该算法在误差范围、空间复杂度和处理单项数据项的时间复杂度方面是目前进行频繁项挖掘中的较好算法,但该算法在最坏时间复杂度方面没有给出最坏保证,在精度方面还可以进一步提高。然后,本文给出了基于计数和局部性原理的频繁项挖掘算法。一方面,改进EC算法维护样本集合的方法,将数据流每个数据项的最坏处理时间控制在O(ε-1);另一方面,根据局部性原理可知,如果一个数据项被访问,则该项可能很快被再次访问。因此,利用增加历史样本集,暂存历史流数据的概要信息,通过动态维护样本集和历史样本集来进一步降低输出频率值的误差,用一定的空间换取一定的精度。通过理论分析和实验验证,通常情况,改进算法的误差更小。而且,最坏时间复杂度可以得到保证。最后,在公安局的点击流频繁项挖掘系统中该算法得到具体应用。访问者点击网页时形成连续的、数据量巨大的点击流信息,保存所有数据是不现实的。当点击流信息产生时,首先,数据流处理模块负责接收数据、流量控制等。然后,通过数据流频繁项挖掘模块快速、有效地近似统计出点击量最大的网页,将该信息保存在概要数据结构中。当查询时,从概要结构中快速返回感兴趣的网页。
其他文献
学校教务管理系统的开发与应用,可以有效提高学校的教育教学管理水平,提高教务管理部门的工作效率,开发学校教务管理系统具有一定的理论意义和现实价值。本文以鞍山市广播电
通用串行总线(Universal Serial Bus, USB)是一种高传输速率的串行接口总线,它具有即插即用、易于扩展和传输速率高等特点。但过份依赖于PC机是其一个致命的弱点,严重阻碍了U
本体具有概念共享、形式化的能力,能够在人和机器之间建立统一的交流平台,使得基于本体的知识库在领域软件工程尤其在领域需求中得到了较好的应用,已成为计算机界和知识工程
Web服务是目前互联网的发展热点,正以其开放、简单、跨平台、低代价集成等优点引起相关研究人员和应用开发人员的重视。但是在传统的Web服务体系中,服务的发布和发现都是以一
图论是数学的一个分支,它与数学的其他分支有密切的关系。这些分支包括群论、矩阵论、数值分析、概率论、拓扑学和组合论等。随着计算机科学与数学的发展,图论已经成为人们研究
近些年来,随着电子政务全面深入地发展,面临的信息难以共享、政务条块分割以及缺乏个性化服务的问题也日益突出,政务资源整合是解决这些问题的基础,而政务资源整合的关键问题之一
计算机工程科学的世界给人们带来了很多方便的和智能的环境。一个智能环境是可以识别人类的。把他们的动作翻译成机器识的语言而且最后按照具体情况来反映或者提供服务。所以
HRV是指逐次窦性心动周期之间的微小变异,反映心脏自主神经系统的功能状态。这种心搏间的微小差异,可以被计算机心电检测系统记录、测量和计算出来,作为临床应用指导。已经公认H
早在700多年前,第一篇有关于水印的文章发表在手工艺术的领域上。1292年,这篇最早的水印文章在档案室被发现,而档案室所处的城市是意大利法布里亚诺城镇,这座城镇在水印制作产业
股票市场的预测问题引起了许多不同研究领域的兴趣,如金融,贸易,统计以及计算机科学。本文旨在预测股票市场中的一个关键参数,从而忽略了大多数研究。这项工作的目的是为了表明利