论文部分内容阅读
随着工业系统日益复杂化,基于数据驱动的故障诊断方法正成为当前研究的一个热点方向。区别于传统方法对精确数学模型的依赖,数据驱动式故障诊断通过分析和挖掘过程数据,采用一个反映系统输入和系统状态关系的“黑盒子”对目标系统进行描述,更适用于结构复杂的现代工业系统。在基于数据驱动的故障诊断方法从理论走向实践应用的过程中,不断遇到新的挑战,诊断样本的不平衡特性就是其中之一。诊断样本是数据驱动故障诊断方法的基础,但是,这些工况数据中绝大部分都是无标签的数据;其次,这些工况数据中相对冗余的传感信息又将造成一定程度的“维数灾难”;第三,这些数据中各种工况的样本数量是不平衡的,它们中大部分是正常工况数据,少部分是故障工况数据。以上特点,使得用于诊断的工况数据呈现严重的不平衡的特性(样本标记不平衡,样本价值不平衡,样本类别不平衡)。针对上述的三种样本的不平衡特性,本文探讨了相应的故障特征提取技术,主要工作如下:首先,在训练样本标记不平衡的情况下,探讨了如何引入半监督学习方法对传统的主元分析进行改造,提出了一种半监督主元分析故障诊断算法。该算法在计算大量无标注样本方差的基础上,通过加强正常工况样本的影响而减小非正常工况样本的影响,而提高了主元分析算法的鲁棒性和适应性。然后,我们分析了样本价值不平衡,提出了两种故障特征提取算法,局部保持主元分析和联合费舍尔判别分析。局部保持主元分析从全面提取正常工况样本特征的角度出发,通过引入流形学习算法,将局部保持映射的思想融入到主元分析的目标函数中,使得在原始变量空间投影到低维空间的过程中,不仅实现了整体方差最大化,而且保持了局部近邻结构不变,有利于全局和局部特征的全面提取。联合费舍尔判别分析从分类角度出发,设计新的样本类内散度和类间散度的构建方法,克服非高斯性和非线性数据结构对数据几何中心点计算带来的干扰,同时为了克服离群点对几何中心点的影响,算法从能量密度的角度,提出了离群点的处理方法。为了进一步缓解生产过程中的非线性因素对数据全局和局部结构的影响,论文对联合费舍尔判别分析进行了核扩展,最大程度减少全局和局部数据结构的扭曲,克服非线性数据结构对数据几何中心点计算带来的影响。最后,针对样本类别不平衡,提出了基于集成学习的敏感边际费舍尔分析和基于不平衡支持向量数据描述的回归特征消去方法。基于集成学习的敏感边际费舍尔分析结合全局和局部重采样技术,由三个关键部分组成:(1)在全局层面,提出基于装袋算法的集成模型用来克服了数据漂移产生的过拟合;(2)在局部层面,提出一种基于流形学习的过采样技术-加权合成少数类过采样算法,解决少数类的小样本问题;(3)提出敏感边际费舍尔分析是用来解决类重叠问题造成的挑战。基于不平衡支持向量数据描述的回归特征消去方法是一种特征选择算法,它结合了监督和无监督特征选择方法的优点,并针对监控数据的类别不平衡特性进行了优化,能够在少量故障样本的指导下,更好的描述正常样本的边界分布情况。