面向超大规模时间序列的异常检测

来源 :上海交通大学 | 被引量 : 1次 | 上传用户:yux444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列是对某个物理量进行等时间间隔观测所得的数值序列,能够反映受监测事物的状态、状况。时间序列的异常检测方法能够检测出时序序列中的异常,同时能够评价异常的程度,帮助用户了解受观测事物的状态与情况。时间序列的种类和规模的爆炸性增长对时间序列异常检测提出新的要求。现有时间序列异常检测方法存在检测效果差下,检测性能低下的问题。  本文提出一套面向超大时间序列的异常检测系统,该系统结合本文提出的多种检测方法与方案,改善现有时间序列异常检测存在的问题:1)超大规模时间序列中同一异常重复出现的概率增加,现有异常定义无法发现这类异常,本文提出基于J距离的时间序列异常定义(J-distance Discord,JDD),使用J距离作为衡量该子序列异常程度的标准,实验表明JDD与传统定义相比,能够捕捉到更有意义异常;2)多维时间序列可用于描述复杂系统的多种状态和情况,传统异常检测方法无法发现异常发生的原因,本文提出多维时间序列异常的检测方案(Multi-dimensional Discord Discovery,MDD),我们首先提出异常溯源方法(Dimension Reasoning LOF,DR-LOF),通过不同维度对异常的贡献程度分析异常发生的原因,同时起到异常溯源和数据降维的作用。MDD结合 DR-LOF与JDD形成完整的检测方案。在云计算环境的多种异常的检测案例表明MDD更快更有效地检测异常以及发现异常发生的原因;3)为减少磁盘操作对计算时间的影响,缓解单一计算节点存储空间对异常检测规模的限制,我们提出并行化的时间序列异常检测方法(Parallel Discord Discovery,PDD),PDD将时间序列分段存储在多个计算节点,并行求解子序列在所有分段内的最近邻距离,并通过高效地节点间通讯保证检测结果的正确性。PDD通过分布式的异常估算方法(Distributed Discord Estimation,DDE)和剪枝技术降低计算复杂度,且通过批量处理数据、多发射的方法提高资源利用率。我们使用Apache Spark实现 PDD,在随机时间序列数据集上的实验证明,相对于单线程的HOTSAX检测方法,10个计算节点使PDD获得8倍的加速比,与基于磁盘的异常检测方法相比,PDD的计算资源利用率提高了将近一倍;4)通过分治法加速时间序列异常检测会使检测结果不正确。我们提出了近似的并行化时间序列异常检测方法(Approximated Parallel Discord Discovery,APDD),把时间序列分段并行化检测异常,提出自适应停止条件(Adaptive Stop Criteria,ASC)用于在兼顾检测结果正确性的前提下降低计算复杂度。理论分析表明 APDD降低了异常检测的计算复杂度,实验证明APDD在单机环境下比经典的HOTSAX检测方法快2至14倍,APDD检测结果的前6位与原始定义的检测结果保持一致,且检测结果的正确性对 APDD的并行度不敏感。  总之,超大规模时间序列给时间序列异常检测带来检测效果与检测性能两方面的新挑战,本文针对现有时间序列异常检测方法的不足,提出了面向超大规模时间序列的异常检测系统,系统组合多种检测方法与方案,从检测效果与计算复杂度两个方面进行改进,实验结果表明,组合了JDD,MDD,PDD,APDD的异常检测系统有效改善由数据规模引起的时间序列异常检测中的检测效果差与计算性能差的问题。
其他文献
工业革命以来,人类排放二氧化碳等温室气体造成近百年来全球气候与环境的持续变暖.最近60多年来全球的升温趋势尤其明显,其中,北半球比南半球的变暖更显著,我国东部海域升温
期刊
水检气密性检测方法因其简单快捷、精度高的优点在生产生活中发挥着重要的作用,依靠人眼观察的传统水检方法已无法满足经济发展的要求,需要简单有效的气泡探测方法。光散射成