【摘 要】
:
随着信息化和工业化的融合,物联网和工业互联网蓬勃发展,由此产生了以时间序列为代表的大量工业大数据.时间序列中蕴含着很多有价值的模式,其中,对称模式在各类时间序列中广泛存在.挖掘对称模式对于行为分析、轨迹跟踪、异常检测等领域具有重要的研究价值,但时间序列的数据量往往高达几十甚至上百GB.使用直接的嵌套查询算法挖掘对称模式可能花费数月乃至数年的时间,而索引、下界和三角不等式等典型加速技术最多只能产生一两个数量级的加速.因此,基于动态时间规整算法的启发,提出了一种能够在O(w×|习)的时间复杂度内挖掘出时间序列
【机 构】
:
清华大学软件学院,北京100084;清华大学软件学院,北京100084;大数据系统软件国家工程实验室(清华大学),北京100084;北京信息科学与技术国家研究中心(清华大学),北京100084
论文部分内容阅读
随着信息化和工业化的融合,物联网和工业互联网蓬勃发展,由此产生了以时间序列为代表的大量工业大数据.时间序列中蕴含着很多有价值的模式,其中,对称模式在各类时间序列中广泛存在.挖掘对称模式对于行为分析、轨迹跟踪、异常检测等领域具有重要的研究价值,但时间序列的数据量往往高达几十甚至上百GB.使用直接的嵌套查询算法挖掘对称模式可能花费数月乃至数年的时间,而索引、下界和三角不等式等典型加速技术最多只能产生一两个数量级的加速.因此,基于动态时间规整算法的启发,提出了一种能够在O(w×|习)的时间复杂度内挖掘出时间序列所有对称模式的方法.具体来说,给定对称模式长度约束,基于区间动态规划算法计算出对称子序列,进而依据贪心策略选择数量最多且不重叠的对称模式.此外,还研究了在时间序列数据流挖掘对称模式的算法,并根据窗口内数据的特征动态调节窗口大小,保证了对称模式数据的完整性.采用1个人工数据集、3个真实数据集在不同数据量下对上述方法进行实验.由实验结果可知,与其他对称模式挖掘方法相比,该方法在模式挖掘结果及时间开销方面均有较好的表现.
其他文献
近年来,数据库系统为了应对新应用和新数据类型对数据管理与分析提出的全新挑战,产生了一系列新的发展趋势,包括:(1)在数据管理方面,计算机硬件的创新与人工智能技术的深入为数据库系统带来了全新的发展机会,而伸缩性、容错性、可扩展性等应用需求又给数据管理带来了全新的挑战;(2)在数据分析方面,数据量的剧增、数据类型的异构与应用需求的多样对数据库系统的分析能力与性能提出了更高的要求;(3)在数据安全方面,多方安全计算、联邦学习等应用和需求的变化给数据库安全与隐私保护技术带来了全新的课题.因此,需要利用和发展现有的
随着大数据和机器学习的火热发展,面向机器学习的分布式大数据计算引擎随之兴起.这些系统既可以支持批量的分布式学习,也可以支持流式的增量学习和验证,具有低延迟、高性能的特点.然而,当前的一些主流系统采用了随机的任务调度策略,忽略了节点的性能差异,因此容易导致负载不均和性能下降.同时,对于某些任务,如果资源要求不满足,则会导致调度失败.针对这些问题,提出了一种异构任务调度框架,能够保证任务的高效执行和被执行.具体来讲,该框架针对任务调度模块,围绕节点的异构计算资源,提出了概率随机的调度策略resource-Pi
联邦学习是顺应大数据时代和人工智能技术发展而兴起的一种协调多个参与方共同训练模型的机制.它允许各个参与方将数据保留在本地,在打破数据孤岛的同时保证参与方对数据的控制权.然而联邦学习引入了大量参数交换过程,不仅和集中式训练一样受到模型使用者的威胁,还可能受到来自不可信的参与设备的攻击,因此亟需更强的隐私手段保护各方持有的数据.分析并展望了联邦学习中的隐私保护技术的研究进展和趋势.简要介绍联邦学习的架构和类型,分析联邦学习过程中面临的隐私风险,总结重建、推断两种攻击策略,然后依据联邦学习中的隐私保护机制归纳隐