度量空间支撑点选择穷举算法优化及并行化研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:ismyaccount
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为应对大数据多样性挑战,一种方法是将多种类型的数据抽象成统一的通用数据类型,进而对不同类型的数据采用相同的算法进行处理。大数据泛构理念是以度量空间作为上述的通用数据类型。但由于度量空间中只有距离没有坐标,基于坐标的数据处理方法很难直接应用。一种常见的度量空间坐标化方法是选择一些数据作为参考点(支撑点),以数据到各支撑点的距离作为其坐标,支撑点的好坏对索引性能有着关键性的影响。针对长期没有突破的度量空间支撑点选择问题,本文采用穷举法获取支撑点选择的性能上限,为揭示现有支撑点选择算法的提升空间,发现优秀支撑点的模式和特征提供数据支撑。然而从n个数据中选择k个支撑点的穷举法的时间复杂度往往高达O(nk+2)。随着n和k的增长,计算代价指数性增长。为了扩大可以精确计算的n和k的范围,需要对穷举算法进行优化。本文的研究包括以下三个方面:(1)提出基于任务重合度和优先计算优秀支撑点的快速支撑点选择穷举算法。并通过MPI和CUDA技术,对支撑点选择穷举算法进行并行化实现。实验证明,快速支撑点选择穷举算法和CUDA并行算法分别具有38以上和近200的加速比。(2)针对实验过程中长期存在的数小时的负载均衡问题,提出了融合work-stealing和多阶段循环神经网络的负载均衡策略(WM-RNN)。实验证明WM-RNN负载均衡策略相较于work-stealing策略有68%以上的性能提升。(3)为了解决算法实现效率低及并行运行参数手动调优耗时问题,提出了基于算法描述模块与搜索空间的HPV算法框架,将常用的算法使用模块化形式表达。随后结合任务重合度概念,提出新的适应性函数,利用遗传算法生成算法优化解。实验证明,HPV框架能在2小时内生成性能接近快速支撑点选择穷举算法的优化方案。本文首先从算法优化及并行设计角度大大提高了支撑点选择穷举算法运行效率,随后提出WM-RNN负载均衡策略,有效地缓解了计算过程中存在的负载不均衡问题,最后提出HPV算法框架,减少了算法实现以及调优时间。本文研究内容为度量空间支撑点选择穷举算法在大数据集上的应用指明了方向。
其他文献
近年来,随着计算机视觉理论和技术的快速发展,以及医学影像对现代技术的急切需要,利用计算机对现代医学影像的检测和处理成为了现代工程领域的一个研究热点。医学影像的获取
本文阐述黄梅戏的发展过程,黄梅戏的表演形式以及乐队编制,对环绕声发展史以及拾音制式的介绍,通过文献研究以及对比实验的方式,选择了多种环绕声制式以及相互之间的组合形式
区块链技术因为具有去中心化、不可篡改和可溯源的特点得到不少商业机构的青睐。然而现阶段区块链技术较低的TPS(每秒事务处理量)表现不能满足商业应用大规模、高并发的性能
柴油原料的劣质化导致其加工过程中极易出现催化剂的积炭失活。目前关于柴油加工过程的积炭研究仍处于表面阶段,缺乏对掺炼体系不同原料之间相互作用关系和积炭形成过程的认
随着我国汽车工业的不断发展和道路情况的持续改善,公路运输在货运领域所占比重不断提高,商用车在公路运输领域发挥着重要作用。与乘用车相比,商用车的整车质量与结构尺寸更
膜材料的组成与结构决定着膜的选择分离性能,优化膜蒸馏(Membrane Distillation,MD)膜的材料选择与结构有望大幅提升MD过程的通量与稳定性。本工作基于碳纳米管构建了两种多
在中国大力推动农业现代化进程的背景之下,我国农业存在着农业人口比例大,农业生产效率低下,农业资源紧约束,土地细碎化程度严重等一系列问题,为保障我国农业可持续发展,提高
随着城镇化进程的加快,农村劳动力文化水平不断提高,农村剩余劳动力无限供给的时代已经远去,人口红利优势也渐渐消失;当前,农产品价格“天花板”压顶和生产成本“地板”抬升
石油化工厂和炼油厂因硫化氢腐蚀导致的装置泄露不断遭受经济损失和重大人员伤亡。加氢裂化是石油化工行业非常重要的工艺过程,通过加氢裂化可以获得石脑油、柴油液化气等产
教授治学是高校教授凭借学术权力治理学术事务的大学理念和参与学校管理的过程,是现代大学制度的重要内容之一。《国家中长期教育改革和发展规划纲要(2010长期教育改年)》指