论文部分内容阅读
复杂系统工艺连续、结构关系庞杂,在层次结构、时间过程和功能组成方面表现出非线性和不确定性,则难以建立能精确描述复杂系统的机理解析模型。此外,由于复杂系统的运行过程呈现出显著的时间特性,其运行监测参数是一类典型的多元时间序列数据。以基于数据驱动的控制思想为指导,将复杂系统运行工况转换为数据挖掘的问题,通过控制优化算法对过程数据进行分析,实现复杂系统的工况识别、故障检测和健康诊断。本文以此为切入点,重点关注时间序列的数据挖掘及相关算法,旨在发现对象发展的变化过程、变化趋势、变化规律等重要运行特征,充分考虑如何从多元时间序列数据中高效、准确地挖掘出系统运行过程中参数间隐藏的时态关联及趋势关系,主要研究多元时间序列数据的趋势特征提取和时态关联规则挖掘,其工作包括以下几个方面。为了挖掘多元时间序列中有用的时态关联规则,首先需要将时序数据转换为规则挖掘所需的符号序列。针对表征复杂系统运行工况的多元时间序列数据量大、维度高等特点,通过已有的符号化表示对数据进行压缩,并充分地考虑运行监测数据的趋势特征和时间序列数据的挖掘准确性等问题,提出了一种能够提取分段趋势的符号化表示方法。通过提取序列分段中的趋势变化,定义了三种基本趋势符号,分别表示“上升”、“下降”以及“平稳”的趋势特征,从而将其扩展至多级分段趋势表征中,并给出了趋势特征的距离度量计算方法。针对挖掘多元时间序列数据中具有时间特性的关联规则的效率提升问题。在经典的关联规则挖掘算法上进行改进,将时间区间内的事务数据库转换为布尔矩阵,进而利用布尔矩阵生成的频繁1-项集和频繁2-项集构建一种新的频繁项集树,找出其中所有的频繁项集,生成具有时间顺序的关联规则。该方法约束了序列的挖掘范围,减少了数据库的扫描次数,并且能够快速挖掘出频繁模式并存储相应的时态关系。此外,冗余规则的剪枝也有效地减少了系统资源的浪费,从而提高了算法运行效率。结合研究成果,将本文提出的研究算法应用于TE工业过程数据集,对数据进行趋势符号化表示,再基于趋势表示的符号序列采用改进的规则挖掘算法进行时态关联规则挖掘。并与同类方法进行实验对比分析,验证了本文研究算法对表征复杂系统运行工况数据的适用性,有效地提高规则挖掘的准确性和效率。