面向高维数据的Earth Mover’s Distance Query算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:qzhair
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,数据规模和维度与日俱增,对于高维大数据,如何以更低的计算成本估计数据集之间的距离、快速判断数据集之间的关系,进而帮助用户合理地做决策,具有重要的研究意义和广泛的应用场景。例如,在迁移学习中,选择和目标数据集之间距离小的数据集作为源数据集,可以有效地提升学习效果、节约计算成本。最优传输(Optimal Transport)是一种衡量分布之间距离的模型,因此,本文采用Earth Mover’s Distance(EMD)来衡量高维数据集之间的距离,引入层次分解思想,研究高维数据的EMD Query算法。首先,结合实际应用场景,我们定义EMD Query问题:给定欧式空间Rd中的两个加权点集A和B,快速判断它们的EMD是否大于或小于预先给定的阈值T≥ 0。特别地,当维度d很高,且丨A|和丨B|很大时,大多数现有的EMD算法的复杂度过高,无法高效地求解这个问题。其次,我们基于低倍增维度的假设,结合层次分解思想,提出一种数据相关的层次Gonzalez’s算法,从而压缩解空间。进一步,我们提出一种层次EMD Query算法,利用数据结构逐层估计EMD,以避免直接计算A和B之间的EMD,从而更有效地解决EMD Query问题。此外,我们还改进算法,以应对数据集倍增维度ρ未知的情况。本文从理论分析和实验设计两个角度,根据定义的EMD Query问题,对比已有的EMD算法和其他层次分解算法,验证了我们提出的算法运行时间更短、准确率更高、效果更好,具有以下优点:降低时间复杂度,减少计算资源;算法易于编程实现,构建的数据结构简单,减少空间复杂度;算法框架的泛化性强,可以插入任何已有的EMD算法,易于扩展。
其他文献
新生代时期,亚洲板块和印度板块相互挤压碰撞,形成时当今地球上面积最大、最年轻的大陆碰撞造山带——喜马拉雅造山带,其记录了大量关于大陆俯冲、碰撞以及折返等信息,提供了大量野外研究的真实案例,为认识岩石的成因机制和喜马拉雅造山带的形成和演化提供了关键证据。本学位论文的研究区域位于雅拉香波片麻岩穹窿,是北喜马拉雅穹窿带最东端的片麻岩穹窿。北喜马拉雅片麻岩穹窿带位于特提斯喜马拉雅带上,是高喜马拉雅带在特提
学位
研究目的:应用光学相干断层扫描(OCT)联合多焦视网膜电图(mf ERG)评价蒙药明目十一味丸治疗湿性年龄相关性黄斑变性(wAMD)的临床疗效。研究方法:本研究全部病例来自于内蒙古民族大学附属医院眼科2020年11月至2021年12月收治的湿性年龄相关性黄斑变性患者70例(70只眼),随机分成治疗组和对照组,每组各35例患者(35只眼),每月行1次玻璃体腔注射康柏西普0.05ml,连续治疗3个月。
学位
产业引导基金可以有效引导和带动社会投资,增加创业投资资本有效供给,政府可通过政策实现定向支持新兴战略性产业发展,推动产业结构优化升级。在国家支持下,产业引导基金发展迅速,但其隐藏的风险也不可忽视,特别是投后管理风险尤其重要,投后风险管理效果可能影响产业引导基金最终能否实现政策引导目标。加强产业引导基金投后风险管理,可以提高基金投资能力和投资效益,推动高新技术产业发展,促进产业结构转型升级,促进经济
学位
随着移动通信的不断发展,各类新兴服务不断涌现。诸多新型业务的实现需求能与之相匹配的通信系统的吞吐量。大规模多输入多输出(Multiple-input Multiple-output,MIMO)可以极大提升无线系统的容量。这契合了第五代(5-th Generation,5G)乃至第六代(6-th Generation,6G)通信系统的要求。为了提升大规模MIMO系统的频效、能效等性能,信道状态信息的
学位
家国情怀是中华民族优秀传统文化,是中华民族团结奋进的动力。习近平总书记曾在2019年春节团拜会上指出要在全社会大力弘扬家国情怀和社会主义核心价值观,倡导爱家爱国相统一。高中生作为新时代的主力军,是祖国的未来和民族的希望。所以在高中思想政治课中培养学生的家国情怀至关重要,不仅有利于学生形成正确国家观、民族观和历史观,而且有利于增强学生爱国使命感,为实现中华民族伟大复兴而砥砺前行。该文以高中思想政治课
学位
锂离子电池是近30年来最重要的发明之一,它具有能量密度高、无记忆效应、循环寿命长等优点。然而,锂离子电池在储存、运输和使用的过程中往往并非单一存在,而是以水平或竖直方向排列的电池组的形式出现。当电池组中某一单体电池受到高温、高压、过充或过放等外界刺激时,可能会在模组内引发热失控传播的危险事故。因此,对电池的热失控传播情况进行研究,从而了解热失控传播的热量传递特性,有助于保障锂离子电池组的热安全。对
学位
神经网络剪枝是神经网络模型压缩的常用方法之一,剪枝算法通过移除网络中的冗余权重实现模型压缩。通道粒度是神经网络剪枝粒度之一,通道级剪枝算法将每个滤波器中的权重作为整体进行移除,减少了卷积神经网络中的通道数量,降低了权重与输入特征图的计算复杂性。由于通道级剪枝保留了矩阵运算的结构化特性,使用通用软硬件,即可实现推理加速,因此通道级剪枝算法广泛用于卷积神经网络的模型压缩场景。绝大多数的神经网络剪枝方法
学位
目的 探讨基于家庭赋权的护理干预结合个体化饮食结构调整在尿毒症维持性血液透析患者中的应用效果。方法采用随机数字表法将80例尿毒症维持性血液透析患者分为对照组与观察组,各40例。对照组采用常规护理干预,观察组在对照组基础上加用基于家庭赋权的护理干预结合个体化饮食结构调整。比较两组的干预效果。结果 干预后,观察组的白蛋白(ALB)、前白蛋白(PA)、血清铁蛋白(SF)水平均高于对照组,心境状态量表(P
期刊
随着视频业务的兴起,移动流量需求飞速增长,无线通信系统需要实现千倍的网络容量增长。为了实现上述目标,许多先进技术如大规模输入输出(Mas-sive Multiple-Input Multiple-Output,massive MIMO)、毫米波(Millimeter Wave,mmWave)等得到了广泛研究。然而,高频的mmWave信号路损值极大,极易被障碍物阻挡;massive MIMO配备了大
学位
目的:1.通过蒙医针刺疗法对更年期综合征血清E2的影响研究来评价蒙医针刺疗法对更年期综合征的临床疗效,为临床上治疗更年期综合征提供参考。2.为防止更年期综合征进一步加重或并发其他疾病,提供非药物治疗的传统治疗方法。方法:从2020年12月至2022年01月就诊于内蒙古民族大学附属医院治未病科及妇科的45-55岁女性更年期综合征患者中筛选60名患者,将其随机分为对照组和治疗组,每组患者30名。对照组
学位