【摘 要】
:
连接查询技术往往需要很高的时间开销。随着数据量加大,连接查询会因其时间开销过大而失去实用性。现实的数据集通常是包含大量重复元组的脏数据集,会造成查询结果包含重复元
论文部分内容阅读
连接查询技术往往需要很高的时间开销。随着数据量加大,连接查询会因其时间开销过大而失去实用性。现实的数据集通常是包含大量重复元组的脏数据集,会造成查询结果包含重复元组,导致查询效果低效。本文通过分块的思想将对整个数据集的扫描和解析转化成对部分区域块的操作,并将实时实体解析与连接查询技术相融合来解决传统的连接查询所导致的查询结果和时间的低效或失效的问题。本文重点研究融合实时实体解析的Top-N连接查询处理问题,用等价关系和等价类定义相应的查询模型。对于数据集R=R1?R2?????Rs,查询点Q=(Q1,Q2,???,Qs),利用基于分治机制的索引方法,将数据集划分成若干个互不相交的区域块;通过定位查询算法找到距离Qi最近的区域块及对应的排序列表;利用二分法找到距Qi最近的元组,计算排序属性间的距离,以此确定查询范围,进而在查询范围内的区域块中找到Qi的Top-Ki元组;然后设置缓冲区,每当Ri推送一个Top-Ki元组时,将其与缓冲区中相应的元组进行连接,采用双阈值法确定R上关于Q的Top-N查询结果。如此便可缩小连接查询的查询范围,有效降低了时间开销,提高了查询效率。对于去除查询结果中包含的重复元组,本文将实时实体解析与Top-N连接查询相融合,设计两种处理方法:一种方法将实时实体解析与脏数据集上的Top-N连接查询集成为一体,进行连接查询同时去掉查询结果中的重复元组;另一种首先通过索引对脏数据集进行实时实体解析,将重复元组聚类得到相应的干净数据集,把聚类作为一个整体,对聚类进行外连接操作获取Top-N连接元组,最后得到Top-N连接查询结果。另外,对于具有大量重复元组的脏数据集,在Top-N连接查询的查询模型和处理技术上进行适当的修改和优化,给出融合实时实体解析的点连接查询模型和区域连接查询模型。点查询Q=(Q1,Q2,???,Qs)处理方法利用索引快速定位到距离Qi最近的区域块,找出等于Qi的元组。区域查询利用索引快速找到与查询区域相交或包含的区域块,通过二分查找在这些区域块上找到查询区域内的元组。本文将实时实体解析与点连接查询、区域连接查询相融合,给出有效的算法去除其查询结果中的重复元组。针对上述的三类连接查询处理方法,使用2,3,5和10维的脏数据集,选择三种不同的距离函数(曼哈顿距离、欧几里得距离、最大范数距离)分别对两个数据集的连接查询、三个数据集的连接查询和四个数据集的连接查询进行了大量的实验。实验结果表明,本文给出的相关方法和算法对连接查询处理皆有效,能够快速得到去重的查询结果。
其他文献
目标检测主要是计算机视觉领域是一个重要的研究方向,在人脸检测、车辆检测等众多应用中都发挥着不可或缺的作用。随着深度学习技术的发展,相比于传统目标检测方法,基于深度学习的目标检测算法在算法精度上取得长足的进步。相比于图像识别,目标检测不仅需要判别图像中存在的目标的类别,还需要回归目标在图像中的位置。然而目前主流的目标检测算法中,如Faster RCNN仍然存在特征耦合的现象。具体表现在,分类和回归部
无线传感器网络(Wireless Sensor Network,WSN)因其中传感器节点体积小、成本低的特点,集成了传感、处理和短距离无线通信等多项功能,因而广泛适用于多种特定环境。尽管如此,传感器节点受到的资源限制和所处的恶劣环境也使得生成的数据容易受到噪声、错误、数据丢失、重复值和冲突信息的污染。在WSN中,这些受污染的数据被称为异常值。对WSN进行异常值检测对于确保数据质量,安全监控以及关键
随着数据以指数级速度不断增长,越来越多的以数据驱动为计算模式的人工智能模型被应用到了各行各业(例如医疗、法律等领域),不断从大数据中发现知识、规律和模式,辅助行业用户,发挥出了巨大作用。在法庭审理过程中,原告和被告在进行诉称和辩称后,法官会根据原告和被告之间形成的论辩焦点提出质询性问题,甄别争论焦点,厘清案由,以形成判案依据,最终给出判案结果。本文以民间借贷这一类别案由为研究对象,研究将人工智能算
随着社会现代化进程的加快,人类有80%以上的时间都在室内环境中活动,对于基于位置的服务(Location Based Services,LBS)的需求日益提高,致使室内定位市场蓬勃发展。近二十年来,各种各样的室内定位技术层出不穷。随着无线网络的大范围覆盖以及智能终端的快速发展,基于Wi-Fi位置指纹的定位方法成为了当前室内定位服务的首选。在位置指纹定位方法中,指纹地图的“保真度”与定位精度紧密相关
近年来,移动智能终端在处理器、嵌入式传感器和网络传输速率方面有所发展。人们把数据众包的思想与移动智能终端的感知能力相结合,提出一种快速、简便和低成本的新的数据收集范式,即“移动群体感知”。移动群体感知平台通过招募大量的移动用户收集数据,为各类城市监控应用提供数据支持,被广泛的应用于环境监控、交通监控和医疗健康监控等场景。由于云平台是不可信的,在数据聚合过程中云平台存在泄漏移动用户隐私的风险。此外,
在无线传感器网络的研究中,分簇路由协议是其中的重要分支,2000年提出的LEACH协议成为了众多研究的基础。其中非均匀分簇路由协议作为解决能量空洞问题的重要手段,能够极大的延长网络的生命周期,有着广阔的应用前景。本文基于传统非均匀分簇EEUC协议,在簇头选举,数据融合,路由传输三个阶段分别提出相应的优化方法,用来降低网络能耗延长网络生命周期以及提高传输数据的精度,论文主要工作如下:(1)在簇头选举
随着光学技术及产品的开发和应用,金属镜作为其中重要的光学元件之一,对金属镜实现高效、高精、低表面损伤加工的需求越来越多,对加工技术的要求越来越高。本文针对固结磨料磨具研磨金属镜加工技术进行了深入的研究。本文对固结磨料磨具研磨的加工机理进行分析,从磨粒角度入手,分析了单颗磨粒的受力和磨粒整体分布情况;对不定偏心研磨下,固结磨料磨具与工件间的相对运动轨迹进行探索,推导出了磨具上一点相对于工件的轨迹方程
网络考试系统是高校考试方式的发展趋势,尤其今年疫情带来的影响,更加迫切的需要考试的网络化。本论文探索实现的是支持大规模考生参加的局域网网络考试系统。本论文主要通过对现有考试方式的分析,确立了系统开发的可行性、必要性,完成了系统的功能性需求、非功能性需求。之后对网络考试系统进行了概要设计,介绍了微服务架构与单体应用架构之间的对比,阐释了本文采用微服务架构的优点,设计了考务管理前端、考试终端,进行了微
国际能源危机的来临、国家政策的导向促使节能问题成为制造业关注的重点问题。随着智能工厂的发展,机器人柔性生产线将会在未来逐渐成为制造工厂中的生产主力军,同时也是制造工厂的主要能耗者。可以预见,机器人柔性生产线节能技术具有重要的研究意义。本文基于工业机器人轨迹规划和柔性生产线调度,开展机器人柔性生产线节能技术研究。所提出的节能技术均在真实工业机器人与柔性生产线进行了应用实验,具有一定的应用价值。主要研
随着互联网技术的快速发展,安全技术与云计算逐渐交织形成一种新的安全防御途径——安全共享资源池。“安全即服务”作为一种新的服务受到学术界和产业界极大的关注,用户只需租用安全资源,即可在不消耗本地计算资源的情况下享受到安全服务。但是随着安全共享资源池的扩展,数据中心管理成本不断增加,安全资源池如何在确保安全性的同时降低成本成为人们关注的问题。研究根据节点资源负载随时间的变化特点,达到安全共享资源池的资