基于线性规划的算法设计方法学在最优修复计算问题中的应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:linxulong07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不一致数据最优修复计算问题的复杂性总是NP完全的,为该问题设计带有理论保证的近似算法已经成为一个独立、热门的研究领域,在数据修复、一致查询回答中有着广泛的应用。该问题通常被建模为图论中的组合优化问题,如最小带权顶点覆盖问题、最小带权集合覆盖问题等等。因此,大多数基于图论的近似算法可以直接用于不一致数据最优修复计算问题,这些算法能在多项式时间内给出较好的常数近似比结果。除了被建模为图论中的组合优化问题之外,不一致数据最优修复计算问题还可以被形式化为线性规划问题,如0-1整型线性规划问题、松弛线性规划问题等等。于是,基于线性规划的近似算法在多项式时间内也能为不一致数据最优修复计算问题带来很好的常数近似比结果。对比基于图论的近似算法和基于线性规划的近似算法,本文发现后者表现得更好一些。一个原因是线性规划理论较完善、方法较成熟,它本身就可以解决图论中的一些组合优化问题;另一个原因是线性规划的表达方式更细腻,它更善于抓住问题的结构特点,得到更接近最优解的近似结果。于是,本文针对不一致数据最优修复计算问题,总结出一套基于线性规划的算法设计方法学,用于指导如何为具体的不一致数据最优修复计算问题设计近似算法。该方法学的框架主要包括建模、求解、舍入和近似比证明等过程。本文利用两个最优修复计算问题来说明该方法学的有效性。一个是关系型数据库中的最优软修复计算问题,基于该方法学设计的近似算法,将其近似比从3提高到2。另一个是时态数据库中的最优时态修复计算问题,基于该方法学设计的近似算法,为该问题带来首个常数近似比2+(4/(λ-2)),其中λ(λ>2)是元组的统一权值。对于上述两个最优修复计算问题,本文分别在合成数据集和真实数据集上进行了充分的对比实验,来检验基于该方法学所提出的近似算法的性能。
其他文献
深度学习技术在计算机视觉和自然语言处理领域获得了迅猛发展,作为融合了计算机视觉和自然语言处理两大领域的图像描述任务也因此取得了巨大的进步。现阶段,采用的结构框架一般都基于编码器-解码器结构,编码器用于提取图像特征,生成图像特征向量,解码器通过将图像特征作为输入解码生成与图像相对应的自然语言描述。相关研究人员在图像描述任务编码器-解码器结构的基础之上对编码器和解码器的结构等进行了全方位的改进,近几年
学位
大数据时代的降临伴随着海量数据的出现,同时使得数据成为人们生产生活中不可或缺的一部分。时间序列数据又是海量数据中的非常常见的一类,其在工业及物联网领域广泛存在,同样蕴含着巨大价值。但不幸的是,属性值错列的现象却频频发生在时序数据采集的过程当中,严重地影响着数据的质量。例如:在气象数据采集的过程中,某一时刻2的浓度值被传输到了2的属性域内,而2的浓度值被传输到了2的属性域内,即两个属性的属性值发生了
学位
立体图像质量评价(Stereo Image Quality Assessment,SIQA)对现代三维显示技术的发展具有重要意义,由于在实际应用场景中缺乏原始图像作为参考,无参考立体图像质量评价在多媒体应用中引起了广泛的关注。立体图像质量评价与二维图像质量评价模型相比,由于深度和视差信息的影响,使立体图像质量评价更具挑战性。本文通过挖掘人眼立体视觉特征与立体图像质量感知之间的关系,利用机器学习技术
学位
图数据由于其灵活性,被广泛应用于各行各业,大量历史图数据需要归档存储。随着现实世界中图数据规模的增大,图数据的存档开销也越来越高,因此有不少学者提出了大量的图数据压缩方法。其中,图概要是一种图的无损压缩方法,其无损压缩的特性保证可以从压缩后的概要图中恢复压缩前的图数据的所有信息。分析归档的概要图需要进行解压操作,这会产生额外的解压开销,因此在归档后的概要图上直接进行图分析具有重要的实际应用价值。然
学位
随着导弹拦截与反拦截技术的不断发展,导弹攻防对抗日益成为研究的热点。在一般作战场景中,被攻击的目标飞行器除了被动防御外还可以发射一颗防御弹来主动拦截来袭导弹,并同时执行机动逃逸,即“三体”问题。“三体”问题是导弹攻防对抗中最简单、研究最成熟的形式。目前导弹攻防对抗的研究主要存在以下问题:1)随着导弹突防方式越来越多样化以及智能化水平不断提高,攻防双方多枚导弹的体系对抗成为趋势,弹间通信约束,弹间避
学位
在医疗信息化进程中,产生了大量数字化医疗文本信息,如中文电子病历,患者健康记录等。医疗文本中蕴含了丰富的医疗领域知识,基于大规模的医疗知识辅助医生进行疾病诊断和风险预测是人工智能在医疗领域的重要研究,有助于提高医生诊断效率,缓解医疗资源缺乏的问题。目前研究者们主要利用深度学习强大的特征表示能力,提取医疗文本中的语义特征向量,然后进行相关的辅助诊断和风险预测研究,但该方法缺乏一定的可解释性,且主要基
学位
命名数据网络(Named Data Networking,NDN)是研究者们提出的发展未来互联网的一种“革命性”的技术路线,NDN是以内容为中心,用内容名称代替传统网络中的IP地址,实现内容与IP地址的解耦。车联网环境具有高速移动性、网络拓扑频繁变化且无线连接易断等特点,传统的基于“端到端”通信的TCP/IP网络暴露出的不安全、可靠性差和移动性差等问题给互联网的服务性能方面带来了限制。但从现有的T
学位
随着互联网的高速发展,MOOC教育开始作为一种主流的在线教学方式,聚集了大量用户以及优质的教育资源。推荐有效学习视频以满足个性化的学习需求已成为当前教育领域的一个研究热点。在MOOC平台上,一门课程可能存在多个与课程内容相对应的教学视频,每个视频的侧重点也可能不同,如何向用户推荐一个用户满意的视频,需要我们充分对用户信息建模,挖掘用户兴趣。针对在线教育推荐的现状,本文进行了深入的研究,提出了一种基
学位
学位
基于多指标时间序列数据分析的综合评价技术被广泛应用于企业决策、故障诊断、智慧医疗和气象预测等领域。多指标时间序列数据由多个单一的时间序列数据组成,各个指标序列数据之间存在一定的异构性特点,例如企业财务数据和人力资源数据,在时间序列数据采集周期、数据有效范围等方面存在较大的差异性。与此同时,不同的综合评价对象主体之间在多指标数据的完整性和有效性方面也存在差异,例如在企业市场投资决策时,上市企业和未上
学位