【摘 要】
:
包含依赖挖掘(IND)是数据挖掘最重要的研究问题之一。包含依赖挖掘是指在一个关系型数据集中表示某一属性组合的所有值,都包含在另一属性组合的值中。它在外键检测、查询优化等领域都有重要应用。文中首先介绍了包含依赖的基本概念和现有算法及发展,然后重点从一元包含依赖挖掘的集中式和分布式两个角度进行算法原理的分析、设计、剪枝优化。集中式算法方面,本文充分利用日益增长的单节点多核计算能力和内存存储,使用多线程
论文部分内容阅读
包含依赖挖掘(IND)是数据挖掘最重要的研究问题之一。包含依赖挖掘是指在一个关系型数据集中表示某一属性组合的所有值,都包含在另一属性组合的值中。它在外键检测、查询优化等领域都有重要应用。文中首先介绍了包含依赖的基本概念和现有算法及发展,然后重点从一元包含依赖挖掘的集中式和分布式两个角度进行算法原理的分析、设计、剪枝优化。集中式算法方面,本文充分利用日益增长的单节点多核计算能力和内存存储,使用多线程技术优化集中式挖掘算法,获得了显著的性能提升,又针对其数据结构提出了基于分布重复性的剪枝技术,大幅减少了需要进行验证的数据规模,该部分技术可以应用于大多数集中式包含依赖算法,使得集中式算法更容易胜任很多场景。分布式算法方面,本文针对现有的分布式算法原理,分析了SINDY算法并根据Spark大数据平台特性,对其做出改进,结合了集中式算法对于倒排索引表的剪枝,提出了在分区内基于内存的预聚合操作;分析了分布式环境下性能瓶颈所在,即导致出现节点间通信的数据分布和数据分区函数,并做出了不同尝试衡量算法稳定性。最终,本文不仅分析了分布式算法和多线程算法的异同之处,从原理和实验层面证实了分区内预聚合的优势,还证明了分布式算法的横向扩展能力,即对大数据量也能处理,以及不同分区策略下算法仍能稳定高效运行。
其他文献
立体图像质量评价(Stereo Image Quality Assessment,SIQA)对现代三维显示技术的发展具有重要意义,由于在实际应用场景中缺乏原始图像作为参考,无参考立体图像质量评价在多媒体应用中引起了广泛的关注。立体图像质量评价与二维图像质量评价模型相比,由于深度和视差信息的影响,使立体图像质量评价更具挑战性。本文通过挖掘人眼立体视觉特征与立体图像质量感知之间的关系,利用机器学习技术
图数据由于其灵活性,被广泛应用于各行各业,大量历史图数据需要归档存储。随着现实世界中图数据规模的增大,图数据的存档开销也越来越高,因此有不少学者提出了大量的图数据压缩方法。其中,图概要是一种图的无损压缩方法,其无损压缩的特性保证可以从压缩后的概要图中恢复压缩前的图数据的所有信息。分析归档的概要图需要进行解压操作,这会产生额外的解压开销,因此在归档后的概要图上直接进行图分析具有重要的实际应用价值。然
随着导弹拦截与反拦截技术的不断发展,导弹攻防对抗日益成为研究的热点。在一般作战场景中,被攻击的目标飞行器除了被动防御外还可以发射一颗防御弹来主动拦截来袭导弹,并同时执行机动逃逸,即“三体”问题。“三体”问题是导弹攻防对抗中最简单、研究最成熟的形式。目前导弹攻防对抗的研究主要存在以下问题:1)随着导弹突防方式越来越多样化以及智能化水平不断提高,攻防双方多枚导弹的体系对抗成为趋势,弹间通信约束,弹间避
在医疗信息化进程中,产生了大量数字化医疗文本信息,如中文电子病历,患者健康记录等。医疗文本中蕴含了丰富的医疗领域知识,基于大规模的医疗知识辅助医生进行疾病诊断和风险预测是人工智能在医疗领域的重要研究,有助于提高医生诊断效率,缓解医疗资源缺乏的问题。目前研究者们主要利用深度学习强大的特征表示能力,提取医疗文本中的语义特征向量,然后进行相关的辅助诊断和风险预测研究,但该方法缺乏一定的可解释性,且主要基
命名数据网络(Named Data Networking,NDN)是研究者们提出的发展未来互联网的一种“革命性”的技术路线,NDN是以内容为中心,用内容名称代替传统网络中的IP地址,实现内容与IP地址的解耦。车联网环境具有高速移动性、网络拓扑频繁变化且无线连接易断等特点,传统的基于“端到端”通信的TCP/IP网络暴露出的不安全、可靠性差和移动性差等问题给互联网的服务性能方面带来了限制。但从现有的T
随着互联网的高速发展,MOOC教育开始作为一种主流的在线教学方式,聚集了大量用户以及优质的教育资源。推荐有效学习视频以满足个性化的学习需求已成为当前教育领域的一个研究热点。在MOOC平台上,一门课程可能存在多个与课程内容相对应的教学视频,每个视频的侧重点也可能不同,如何向用户推荐一个用户满意的视频,需要我们充分对用户信息建模,挖掘用户兴趣。针对在线教育推荐的现状,本文进行了深入的研究,提出了一种基
基于多指标时间序列数据分析的综合评价技术被广泛应用于企业决策、故障诊断、智慧医疗和气象预测等领域。多指标时间序列数据由多个单一的时间序列数据组成,各个指标序列数据之间存在一定的异构性特点,例如企业财务数据和人力资源数据,在时间序列数据采集周期、数据有效范围等方面存在较大的差异性。与此同时,不同的综合评价对象主体之间在多指标数据的完整性和有效性方面也存在差异,例如在企业市场投资决策时,上市企业和未上
不一致数据最优修复计算问题的复杂性总是NP完全的,为该问题设计带有理论保证的近似算法已经成为一个独立、热门的研究领域,在数据修复、一致查询回答中有着广泛的应用。该问题通常被建模为图论中的组合优化问题,如最小带权顶点覆盖问题、最小带权集合覆盖问题等等。因此,大多数基于图论的近似算法可以直接用于不一致数据最优修复计算问题,这些算法能在多项式时间内给出较好的常数近似比结果。除了被建模为图论中的组合优化问
由于互联网的广泛普及以及疫情的影响,在线教育成为学生主要的学习方式之一。在线教育平台不同于传统的课堂教学模式,学生们可以根据自身情况挑选课程内容进行学习。针对不同学生的学习需求,在海量的课程中选取适合学生的课程进行教学,教育平台需根据学生的自身能力为学生推荐合适的教育资源。由于学生会随着学习过程不断积累能力,所以实时追踪学生能力水平至关重要。认知诊断能够根据学生的历史学习记录,分析出学生在特定知识