基于组合的skyline查询算法研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:D_boy85
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Skyline查询解决的是多标准决策问题,随着用户开始关注由多个数据点形成的集合的重要性,组合skyline(Combination skyline,简写为 C-skyline)查询逐渐成为研究的热点,它查询的对象基本单位不再是独立的数据点,而是由若干数据点形成的组合。当前算法存在的问题主要是,输出结果渐进性较差、对无用数据的剪枝率不高,且仅适用于静态数据集。鉴于此,本文分别针对二维数据集、多维数据集和数据流环境下的组合skyline查询算法进行了研究,较好地解决了上述问题。算法可应用于游客对酒店的在线查询、用户对金融产品的选择等涉及到多标准查询的应用场景。论文的主要工作分为以下几个方面。
  ( 1 )针对二维数据集,提出了一种求解 C-skyline 的 PPQ (Partion-Prune-Query)算法。为了对组合实现有效地分类与剪枝,首先提出支配域的概念,并对数据集的所有数据点进行了区域划分;其次,依据构成组合的数据点的位置,对所有组合进行类别划分;然后,分别对不同类别的组合进行分析,并提出相应的剪枝策略,充分利用支配域的特点,结合相关定理快速安全地过滤掉无用的组合,从而得到C-skyline。针对数据集中少量数据发生改变的情况,提出了C-skyline更新算法。最后在不同类型的数据集上对算法进行了实验与分析。
  (2)针对多维数据集,提出一种高效求解C-skyline的LGH算法(Layer-Gragh-HashTable)。首先建立与数据集对应的skyline层结构,从而将数据集的所有数据点分成若干个层次,且位于同一层的数据点之间不存在支配关系;其次,建立有向支配图,明确了数据点之间的支配关系;然后,根据每个数据点及其父结点的数量建立哈希表,以便在计算过程中快速查询支配当前数据点的所有点;接着,根据C-skyline组合的特点,将其分类并分别求之。实验结果表明,算法在多种情况下都要比现有算法的执行速度要快。
  (3)针对数据流环境,提出了 C-skyline 的求解算法。针对数据流中的数据具有实时性和持续性的特点,提出了共享策略,当有效窗口内的数据发生变化时,在现有查询结果基础上重新判断可能对结果产生影响的组合,从而实现查询结果的快速求解。针对数据点达到和数据点到期两种情况,分别给出了相应的C-skyline算法。两种算法采用了相似的求解方式,根据变化的数据点,对当前的skyline层和有向支配图进行更新,然后分析可能受到影响的组合,并对其进行判断,从而在现有查询结果的基础上得到实时的查询结果。实验结果表明算法具有较快的查询速度,且受数据流速的影响比较明显。
其他文献
近十年来机器人技术不论在工业还是在日常生活中都得到了广泛的应用。乒乓球运动是一项需要良好的反应能力与快速判断决策能力的运动,乒乓球机器人不仅能助力乒乓球运动的发展,同时也是研究实时响应机器人技术的理想实验平台。本文以乒乓球机器人为研究平台进行了以下三个方面的研究工作:乒乓球运动的实时图像采集、乒乓球的自动识别与定位、乒乓球飞行轨迹预测及七自由度机械臂击球控制。  对乒乓球运动实时图像采集模块进行了
农业资源是农业生产的基础,如今农业资源量稀缺性日益突出,就空间分布而言,农业资源分散性明显,管理难度大,利用率低,因此农业资源的合理调配对农业发展起着重要作用。资源调配实质上属于定位路径问题,即资源定位配置和车辆路线安排的集成问题,前者决定提供资源的供应点和其所负责的需求点的位置及调配资源的类型和数量,后者解决资源调配的路线安排,解决农业资源调配问题,就要确定合理的调配路线和资源的调配量。为了在获
学位
近些年随着人工智能的不断发展,人们对智能化的依赖越来越高,除了生活中的一些智能产品,工业生产过程中的智能化也有非常大的需求。然而工业智能化过程中复杂的工业环境对机器人以及其控制系统的性能提出了非常高的要求。本文对应用非常广泛的七自由度冗余机械臂的控制系统进行研究,包括进行详细的模型建立和分析,逆运动学求解和轨迹规划。  首先,本文以七自由度机械臂的关节旋转特性为依据建立右手直角坐标系,根据机械臂的
工业装置在生产产品过程中,由于某些部分故障会导致整个设备的停运。甚至当报警不灵敏时,会出现重大安全事故。为保证工业生产的安全,有必要对工业设备进行故障诊断和分析,及时发现安全隐患,并第一时间排除。通过分析传感器系统收集的数据,可以评估设备内部各元件的健康状态。  现有的故障诊断技术,还无法同时满足保证精度和速度的要求。长短期记忆神经网络是一种时间递归神经网络,可以分析输入信息的整体逻辑关系,对于时
学位
随着大数据、物联网等技术的发展,层出不穷的新型服务和不断扩大的网络规模都要求现有网络能快速动态地配置网络资源。但由于现有网络的复杂性和臃肿性,使得这种需求难以被满足。SDN作为下一代网络架构之一,把现有的网络分成了三个相互分离的平面,将网络的控制大权交给了集中式的控制器。其转控分离、集中式控制的特点虽然能够满足对网络设备的快速配置,但同时也带来了单点失效的风险,使它更易成为DDoS攻击的目标。  
近年来,无人机作为一种常见的通过遥控或自动驾驶的飞行设备,被广泛应用于对地震、火灾、洪水等灾害现场的勘察和搜救工作,以及航拍、摄影等娱乐活动。但无人机技术给人类生产生活带来便利的同时,也造成了许多安全隐患,机场、军事区域的无人机黑飞现象更是屡见不鲜,因此需要对无人机进行有效的管控。  无人机的管控不仅需要有关部门出台相应的政策以及对操作者的普及教育,更需要对黑飞无人机采取有效的反制措施,其中通信干
学位
中国自古是纺织大国,在大数据时代背景下,纺织品图像数据正在爆炸式増长,每天需要进行检测的纺织品图像成千上万,这给图像处理领域带来了巨大挑战。加上目前大部分织物检测采用的是效率低、准确率低、主观性强的传统人工方法,因此基于云计算的纺织品瑕疵检测与分类方法的研究对我国纺织业的发展具有十分重要的现实意义。本文研究的内容主要包括纺织品图像预处理算法、纺织品瑕疵检测算法、纺织品瑕疵分类算法以及基于云计算的纺
学位
近年来随着我国经济的不断发展和医疗水平的不断提高,我国的人口数目呈现快速的增长趋势。截至2017年末,中国大陆的人口数量已经达到十三亿九千万人,特别是一线城市,人群密集度达到一种极高的水平。另一方面,人们消费水平的不断提高也使得人们参加演唱会,观光游览,大型比赛等集会的次数更加频繁。人群密集度过高导致的踩踏事件和恐怖事件发生的次数越来越多。这些事件时时警醒人们,同时也显现出对人群密度进行估计和人流
红外夜视图像在军事、医学、民事安全、监控、遥感等领域发挥着不可替代的作用。但是受其热辐射成像机理、大气传输和成像系统的限制,红外夜视图像往往呈现出对比度低、边缘模糊、细节表达能力弱等缺点,并不能充分发挥其优势。为获得更丰富的图像信息,提升红外夜视图像的信息表达能力,本文对超分辨率重建模型展开研究。针对红外夜视图像的特点,重点研究了红外夜视图像对比度增强及基于卷积神经网络的超分辨率重建模型。并建立了
肺癌是世界范围内患病率和死亡率最高的肿瘤之一,目前年轻男性的发病率和死亡率呈上升趋势,公共卫生正面临着沉重的肺癌筛查负担。所以,研究有效的肺结节检测和诊断方法,对于肺癌的早发现和早治疗,并提高潜在肺癌病人存活率有着重要作用。然而,中国乃至全球高端医疗检测设备被外企所垄断,导致癌症诊断费用居高不下。因此,在持久的抗癌和反垄断斗争中,肺结节智能检测和识别方法研究对于肺癌的早发现、提高潜在肺癌病人检出率
学位