论文部分内容阅读
挖掘多变量时间序列中的有用信息是许多科学应用邻域的一项共同任务,包括网络服务,工业系统,医疗健康,航空航天,金融学,气象学,生物信息学等领域。多变量时间序列是由一系列时间上连续的向量值组成,每个时刻对应一个向量值。变量之间往往具有协同变化关系,共同反应一个实体(例如网络服务,工业设备)的状态,时间序列数据的挖掘技术有助于更好地理解纷繁复杂的多变量时间序列数据,提供可理解的领域信息和知识。多变量时间序列数据挖掘是一个异常活跃的研究领域,随着信息的爆炸式增长,现有很多技术难以应对体量巨大且纷繁复杂的多变量时间序列数据。随着大数据和深度学习的兴起,基于大数据、机器学习、深度学习的时间序列数据挖掘技术被不断研究和应用。多变量时间序列数据挖掘有多种不同的任务,本文主要关注以下两个问题:(1)多变量时间序列聚类问题,即将多变量时间序列数据集按照某种相似性,聚合为几个大的组,组内数据相似,组外数据相异。多变量时间序列由于包含多个协同变化的变量,其聚类任务较之单变量时间序列聚类更为复杂。不仅是考虑对应变量之间的相似性,而且需考虑变量之间协同关系的相似性。(2)多变量时间序列异常检测问题,即发现违反正常变化模式的时间序列。现实世界的大量系统通过多变量时间序列进行监测,因此,系统的异常检测对于实体的服务质量管理和风险控制至关重要。另外,由于多变量时间序列固有的高维复杂特性,对异常检测提出了更强的挑战性。针对多变量时间序列聚类问题,本文提出并实现了基于时变高斯马尔可夫随机场学习的多变量时间序列聚类算法T-GMRF。T-GMRF使用高斯马尔可夫随机场(GMRF)来描述变量之间的协同变化关系,使用基于主成分分析的方法将高维GMRF序列投影到低维特征向量,并采用基于多密度的聚类方法获得聚类结果。基于三个开放的多变量时间序列数据集的大量实验表明,所提出的T-GMRF方法在各种性能上均明显优于目前的多变量时间序列聚类算法。对比试验分析和证明了数据降维、多密度聚类模块设计的合理性。针对多变量时间序列异常检测问题,本文提出并实现了基于双向递归生成对抗网络的多变量时间序列异常检测算法BR-GAN。BR-GAN使用双向递归生成对抗网络对多变量时间序列的正常变化模式进行建模,采用编-解-编码网络结构,使用Wasserstein距离衡量模型分布和真实数据分布的差异,并对抗训练训练模型,将时间序列数据空间和网络编码隐变量空间的重构误差结合为更加健壮的异常分数计算方法。基于三个开放的多变量时间序列异常检测数据集的大量实验表明,该方法在检测性能上明显优于目前的多变量时间序列异常检测模型。实验结果表明,在噪音鲁棒性和训练推断效率上,该方法相较于其他方法也有更优秀的性能。