分布式数据流上基于K-Skyband的Top-K支配查询研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:Windows365666151
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Top-K支配查询返回数据集中支配其它数据点个数最多的前K个点,它继承了Skyline查询和Top-K查询的优点而避免了二者的缺点,在偏好搜索、多标准决策支持等领域具有重要作用。目前关于Top-K支配查询的研究局限于集中式数据集。然而,在金融信息分析、传感器网络等新兴应用领域,数据从地理上分布的不同数据源以流的形式连续地传送到中央数据仓库的特征日益显现。如何从这些分布的、流动的海量数据中实时地挖掘到有用信息是近年来流数据挖掘领域中的研究热点。本文将分布式数据流上Top-K支配查询作为研究重点,具体工作包括以下几个方面:  (1)发现Top-K支配查询结果是K-Skyband查询结果的子集,并以此提出通过预先维护分布式数据流上的K-Skyband来进一步求解Top-K支配查询结果的思想。  (2)本文基于网格索引提出一种分布式数据流上连续K-Skyband查询算法GBIFA。GBIFA通过传送K-Skyband增量来减少站点间通信开销。此外,GBIFA对网格索引进行支配区域划分,避免了更新时大量的支配测试,减少了时间开销。  (3)本文实现了一种基于K-Skyband的分布式数据流上连续Top-K支配查询算法GKTDM。围绕减少时间开销为目的,该算法将K-Skyband作为Top-K支配查询结果的候选集,只对K-Skyband点而非全部数据计算支配能力;此外,提出保留支配能力的思想,避免更新后重新计算K-Skyband点的支配能力;最后,采用远程站点预先判定新数据身份的策略,避免中央站点在接收到局部站点的候选K-Skyband点时也对全局K-Skyband集合进行更新维护。  (4)本文以多线程服务器/客户机模型模拟分布式数据流环境,设计了一个分布式数据流查询实验平台,可以高效和自动地测试所提算法在不同参数下的性能。  本文对分布式数据流上Top-K支配查询的研究,在偏好搜索、多标准决策支持等领域具有重要的现实意义。在分布式数据流上的数据挖掘越来越受关注的今天,本文的工作可以促进Top-K支配查询在分布式数据流环境下的应用。
其他文献
多相流作为自然界普遍存在的一种现象,不仅是由于被测介质的介电常数会随着温度等环境的变化而变化,而且还由于被测场域中存在其他介质,会使得测量时出现介质未知的情况,并且
RoboCup机器人世界杯赛是近年来规模最大并且参与人数最多的高智能机器人足球比赛,其中仿真2D组比赛更是RoboCup世界杯中最古老的比赛项目之一,其中的多agent智能系统协作问
关系数据库中的关键词搜索问题已经逐渐成为信息检索领域的研究热点。由于基于关系数据库的关键词搜索技术不需要用户具有任何SQL语法知识和数据库模式知识,只需要输入关键词,
粗糙集是一种处理不确定性知识的数学工具,能较好地分析和处理不精确、不协调和不完备信息,在知识获取、机器学习、智能控制、专家系统、粒度计算等领域得到了广泛的应用、取得
车载自组网(Vehicular ad hoc network-VANET)是由车辆和道路两旁的基站组成的无线自组织网络,是智能交通系统(Intelligent Transportation Systems-ITSs)的一个重要构成。通
伴随着因特网上电子文档信息的持续增长,人们迫切的需要一个工具去发现、过滤以及管理好这些资源,文本挖掘技术可以解决这个问题,它是以文本为对象进行的数据挖掘,可以应用于信息
随着计算机的快速发展,数字图像已经成为一种重要的信息载体。无论是在日常生活和工作中还是在科学研究中,无时无刻都会有大量的数字图像产生。另外,当今社会亦是一个网络高度发
评论是一种评判事物价值的重要主观信息,其已被广泛应用于现有的商品属性抽取、偏好学习以及情感分析和挖掘。然而,评论自身也存在价值层次,能否精准高效地自动评估评论的价值(如
当今社会,从生产调度到经济分析再到生物医药,这些领域无不存在大量需要解决的优化问题。尤其是电子商务行业的兴起,现代物流业迎来了发展的高峰期,而物流配送作为其中最关键
随着计算机硬件和计算机图形学的发展,基于物理模型的流体模拟算法受到了研究学者的广泛关注,也逐渐成为计算机图形学研究热点之一,本文主要内容就是围绕了基于物理模型的烟