基于关联分析的时间序列预测算法及其服务化研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:PeterWang9898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来工业物联网的快速发展,火电厂工业设备上部署了大量的传感器来实时地监测设备的运行状况,这种传感器记录的数据为多维度的时间序列数据。通过对数据中存在的异常进行检测可以来发现设备异常,但是常用的异常检测方法没有充分考虑多维时序数据中存在的关联性,其检测的准确性还有较大的提升空间。通过对时序数据中的关键变量进行预测然后对比预测值和真实值的差值也可以进行异常检测,当某时刻预测值和真实值差得过多时,则可以认为该时刻设备出现了异常,但这种检测方式非常依赖预测算法的表现,因此通过预测来做异常检测的关键在于如何提高预测算法的效果。本文的主要目标是针对火电厂工业设备传感器记录的时间序列数据,来改进相关算法从而提高对关键变量的预测效果。火电厂数据包括多个维度的变量,各个维度变量之间存在着关联性,同时数据在时序上也存在关联性,该预测问题属于基于多变量的时间序列预测问题。经过调研发现,若想提高对这类问题的预测效果,通常可从特征选择和时间序列预测算法两个方面入手,特征选择能够去除原始数据中某些冗余的特征变量从而降低数据维度并提高预测效果,而时间序列预测算法模型的选择也是提高预测效果的有效手段。基于上述问题,本文研究的具体工作内容包括:提出了一种基于最大相关最小冗余(Max-Relevance and Min-Redundancy,MRMR)和后向搜索结合的特征选择算法用于火电厂数据的特征选择;提出了一种基于长短时记忆网络(Long Short-Term Memory,LSTM)和梯度提升决策树(Gradient Boosting Decision Tree,GBDT)组合的时间序列预测算法,在算法模型中还借鉴了Embedding思想;为方便用户在真实工业场景中使用本文算法,本文中还将上述算法服务化并实现了服务化系统。此外,本文还对提出的算法进行了大量实验以验证其有效性,实验采用决定系数(R-Squared,R2)作为算法预测性能的评价指标。结果表明本文的特征选择算法在保证了现有算法的预测性能之外降低了算法运行的时间开销,而本文提出的时间序列预测算法模型在测试集上的R2分数为0.9315,其预测性能相比于GBDT(R2为0.8427)和单层LSTM(R2为0.8863)都有显著提升,也优于堆叠式LSTM(R2为0.9089),同时本文时间序列预测算法的训练时间和预测时间仅仅略高于单层LSTM,相比于堆叠式LSTM降低了一倍。
其他文献
准公共物品民营化模式自上世纪九十年代中期引至我国行政改革之中,并在实践中取得了相应成效。但由于我国正处于转型时期,在改革过程中由于制度与法律体系的不完善,以及民营
将劳动实践教育贯穿“四史”教育全过程,是培养一代代德智体美劳全面发展的社会主义建设者和接班人的本质要求.目前,新自由主义、“非马克思主义”社会思潮和群体从众心理等
实现L5级自动驾驶需要以前所未有的速度来收集、存储和处理数据,传统的嵌入式技术难以应对L5级自动驾驶带来的挑战。本文介绍一种高性能数据记录的领先解决方案,可以在车轮上
春季昼夜温差大,空气湿度大,忽冷忽热和潮湿的天气极不利于生猪健康,散养户和中小型生猪养殖场须抓住六个要点:$$1.注意及时开或关猪舍门窗。当出太阳时,猪舍内温度升高,环境中的微
报纸
异常检测是对数据集中存在非正常模式下所产生数据的检测。多维时间序列(Multidimensional Time Series,MTS)是多维变量按时间顺序记录一系列观察值的集合。驾驶交通工具所产
在中国的城市化和经济发展过程中,有许多群体为之做出了贡献,其中流动人口也在其中,同时,老年流动人口也正在成为流动人口中一个日益庞大的群体。在人口老龄化速度的加快大背景下,出于打工、养老、看病或照顾祖辈的原因等等,老年流动人口流动的现象也会越来越常见。但由于本身流动人口和老龄化的特质等因素制约着其获得基本公共卫生服务的可及性。本研究在社会支持理论、社会公平理论和安德森医疗卫生服务利用行为模型的基础上
香菇多糖具有多种药理学活性,不同生长发育期香菇多糖结构特性和体外免疫、抗肿瘤活性等生物活性间有一定的联系。本文以不同生长发育期(菇蕾期L1、未成熟子实体L2、成熟子实
本文提出一种基于统计学相关性分析的多维时序异常数据检测分析方法,以对检测中表现为异常的数据进行溯源:对反映系统故障的数据和传感器质量问题的数据进行分类,进而识别出真正
我国工业领域逐渐趋于自动化、大型化、系统化,而关键生产设备一旦出现特殊工况,将会给整个生产系统造成影响,因此生产设备安全问题逐渐受到人们的重视。传感器网络在许多现实系统(如智能建筑、工厂、电厂和数据中心)中的普及为生产设备生成了大量的多维度时间序列数据。丰富的传感器数据可以通过异常检测持续监控。然而,由于这些系统的动态复杂性,传统的异常检测方法无法及时地做出预测,而有监督的机器学习方法由于缺少标记
航天器遥测数据可以体现出航天器在轨运行时各部件的工作状态和运行情况,是航天器安全稳定运行的重要依据。但是由于通讯误码或数据采样误差等多种原因,遥测数据会出现许多自身的不确定性,可靠性和准确性降低。可靠性低的遥测数据对于下一步分析航天器运行状态、基于大数据的遥测数据分析等后续数据应用会产生很大的影响,因此,有效地评估遥测数据的可信度对于航天器测控具有重要的意义。本文是在某航天器设备的温度和电压参数数