基于数据流的K-skyband查询处理研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:jzhiei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Skyline查询在多标准决策支持系统、数据挖掘及市场产品定位分析等诸多应用领域起着重要作用。该查询应用于数据流后,在城市导航系统等实时在线服务方面显示出广阔的发展前景。如何在与传统静态数据截然不同的数据流上进行有效的计算是当前研究的热点。k-skyband查询扩展了skyline查询,它通过计算带状skyline,放松了对查询结果的控制关系的约束,弥补了某些skyline查询结果有效信息很少的缺点,具有更好的应用意义。但现有的k-skyband算法无法有效的应对持续、快速到达的数据,使得数据流上的k-skyband集合的挖掘面临着严峻挑战。  本文对基于滑动窗口的k-skyband计算展开研究,以提高k-skyband结果的实时性和强管理性,快速捕获流数据中的特征为目的,结合数据流和k-skyband计算的特点,提出了以下两种不同的模型:  1.基于层次结构的计算模型  为减小新数据对象到来及旧数据到期时的比较代价,本模型将滑动窗口内的k-skyband结果对象及非结果对象进行有效的分离存储,并引入了全新的分层(layer)的概念对结果集进行维护。这种分层结构的好处在于:给定一个数据对象,能够迅速定位控制该对象的点所在的层,更早的裁剪掉非结果点;对于非结果集根据L1定理,按各维维值之和升序进行存储,保证了在结果点到期时对非结果集的一趟扫描。  2.基于网格结构的索引模型  为了弥补在数据流应用中使用常规的空间索引(如:R树、R*树)带来的巨大更新维护代价、高维空间中各节点的严重重叠以及索引本身缺少控制信息等缺陷,本模型采用基于网格(grid)结构的索引结构,并提出了补充结果集、后继skyline对象集的概念,减少了查找候选k-skyband点时的搜索空间。这就大幅度降低一个结果对象到期时从非结果集中找到可以成为结果的对象的计算代价。  本文通过实验对比和结果分析,证明了基于层次结构的LayerSky算法与基于网格索引的GridSky算法在数据流环境中的k-skyband计算问题上能够达到很好的更新效率,解决了数据流上检索k-skyband集合的问题。
其他文献
HACCP全称Hazard Analysis and Critical Control Point,即危害分析关键控制点,表示危害分析的临界控制点,是对可能发生在食品加工环节中的危害进行评估,进而采取控制的一种预防
该文将演化计算(Evolutionary Computation,简称EC)的思想和方法应用到基于构件的软件开发之中,提出一种"基于演化构件的软件复用方法"(简称演化构件方法).在对软件复用深刻认识
IPv6是由IETF设计的下一代因特网协议,目的是取代当前的因特网协议第四版(IPv4)。跟IPv4相比,IPv6除了能够解决当前的IP地址短缺问题外,还可以支持广泛类型的网络应用,支持实时投
学位
随着社会信息化程度的提高,软件作为IT技术应用的核心,其重要性日渐突出。然而在新的经济环境下,随着竞争的加剧和客户需求的多样化,企业对软件的更新速度提出了更高的要求。因此
随着网络技术的飞跃发展以及网络用户规模的显著增加,网络结构变得越来越复杂,导致流量数据急剧上升,对于流量异常数据的出现不仅浪费无关使用的资源,而且降低网络的利用率,
XMI 文档信息容量的增长、数据敏感程度的增加,对异构数据源集成系统提出了新的挑战,例如如何降低查询复杂度、提高查询效率、增强数据库文档信息的安全性。针对这些问题,本文采
软件生存周期包括问题分析、设计、实现、测试和维护等阶段。传统的面向对象开发方法在分析阶段采取面向客观世界的观点,而在设计阶段采取面向实现的计算机观点,因为二者之间的
本文围绕SP彩信业务平台的设计与实现进行展开,详细剖析整个SP彩信平台的结构、设计思想及实现原理。   SP彩信业务平台,通过与网络运营商的接口,接收移动终端用户上行的业务
学位
随着Web迅速普及,Web正经历从一个巨大的包罗万象的以提供信息为主旨的网页集合向提供需求不断变化的服务的集合的转变。人们不再只单纯的追求所需要的数据和信息或者知识,而把
学位
随着信息技术的飞速发展和高等院校研究生招生规模的逐渐扩大,传统行政管理方法已经远远不能适应新的业务发展需要。尤其是随着研究生招生机制改革的逐渐深入,运用信息处理技术