【摘 要】
:
数据流频繁模式挖掘是从实时、连续、有序的数据序列中寻找频繁模式的过程,以往的相关研究通常将该过程分为两个阶段:首先监测数据流中各模式的频率,由于数据流环境对空间与
【机 构】
:
中国人民大学信息学院,北京,100872
论文部分内容阅读
数据流频繁模式挖掘是从实时、连续、有序的数据序列中寻找频繁模式的过程,以往的相关研究通常将该过程分为两个阶段:首先监测数据流中各模式的频率,由于数据流环境对空间与时间的限制,需要对监测模式进行剪裁,因而频率的计算和剪裁需要重复进行;当用户提交查询时,从监控的模式中筛选出满足要求的输出.现有研究都注重解决如何对观测对象进行剪裁,而事实上在计算模式频率时,数据项集中不同数据项间的组合使得频率计算非常耗时.因此,对于高速数据流,算法通常没有足够的时间来处理数据流中的每个事务,这会影响挖掘结果的正确性.针对这一问题提出了一种新的面向高速数据流的频繁模式挖掘算法Delay. 在Delay算法中将模式频率的统计延迟到第2阶段进行,第1阶段只记录"必要信息",这样大大提高了算法所能处理的数据流流动速度的上限.实验结果表明,算法在效率上优于已有算法,LossyCounting和FDPM,尤其是在处理长数据项集数据流时优势更为明显.
其他文献
谁说玩游戏花钱才是大爷?非人民币玩家照样能够玩转!“鹏哥”.一个在《预言Online》几大区都能叫出点名号的玩家,他几乎没有花费一分钱.却是少数几个在服务器中达到70级的人
无论是向往华丽的系统界面,还是对免费系统喜爱有加,“Ubuntu”系统都可以满足需要.但不可否认的是,很多刚刚接触“Ubuntu”的用户都是从Windows阵营中转移过来的,对“Ubuntu
在研究和分析当前群体感知模型研究工作现状的基础上,对基于角色的群体感知模型进行扩展,得到扩展的基于角色的群体感知模型.该模型通过分解群组任务,把群组的成员扮演的角色
Vista拥有众多的内建小程序和设置项.但要想找到这些工具却并不轻松.很多软件都需要进入层层的菜单才能打开,另外很多功能或设置也被“隐藏”了起来.如果可以像居家必备的工
搜狗音乐盒也有桌面歌词功能.形式上和QQ音乐一样.K起歌来很方便.你知道吗?假如自己不太喜欢这种桌面歌词,想将其切换成千千静听那种窗口歌词样式的话,只需简单设置一下便可
经常下载BT资源的朋友都有这样的经历,每次下载完成BT资源之后,都会继续上传该资源.而在网际快车(Flash Get)中,甚至有些上传的没完没了,非常影响我们的正常网络浏览.
目的:对住院病案进行消毒管理。方法:对住院病案实行综合消毒法。结果:病案的综合消毒对预防院内感染有一定效果。结论:住院病案可采取有效的综合消毒法。
Objective: To di
个性化推荐系统的目标是推荐最合适的资源给最需要的用户,这种推荐多数是基于用户的一些历史行为而做出的.如果有足够的历史记录,协同过滤推荐方法往往比其他推荐方法要好.然
图结构挖掘已成为当前数据挖掘的研究重点之一.在文本结构分析、生物信息处理以及网络结构分析等领域图结构挖掘都有着广泛应用.频繁子图的数量通常随图的大小呈指数增长,为
聚类结果的有效性由结构有效性、算法有效性和先验知识有效性3个方面的因素决定.忽略先验知识和假设结构的有效性孤立地提升聚类算法的有效性很可能产生无效的聚类结果.现有