论文部分内容阅读
过程监测技术作为过程系统工程中的重要组成部分,在保障复杂工业过程的稳定性和可靠性,提高企业产品质量等关键问题上具有重要的理论意义和实践意义。得益于集散控制系统(DCS)的不断发展和广泛应用,海量的工业数据得以保存,因此,基于数据驱动的工业故障诊断技术在学术界和工业界都得到了普遍关注。然而,将传统的模式识别方法应用到工业故障诊断上时忽略了流程工业过程中采集到的数据特点,包括有标签故障样本少、正常数据与故障数据以及不同类型的故障数据之间往往存在样本量不平衡的问题,因此不能在数据集上训练出高精度的分类模型来对故障进行有效识别。本文在已有的经典分类算法上,提出了基于不平衡小样本的故障分类技术,将主动学习和半监督学习的思想与传统的基于模式识别的故障分类方法结合起来,并加入了对不平衡数据的代价敏感学习和重采样处理。主要研究工作和成果包括以下几个方面:1)针对流程工业过程中有标签故障样本少、样本标注代价昂贵、样本集存在类不平衡以及样本孤点问题,首先提出了一种改进的主动学习结合加权支持向量机的工业故障分类算法。通过综合考虑样本的信息度和代表性以及样本中可能存在的孤立点,将改进的主动学习算法用于挖掘那些对当前分类模型最有价值的样本并提交给专家进行标注。在进行主动学习算法的研究时,提出了一种改进的加权支持向量机作为基分类模型。对于训练数据中的不同样本,根据其重要性采用不同的权重系数,同时充分考虑了样本点在特征空间分布情况对于主动学习和分类精度的影响,提出了一种新的惩罚系数选取方法,对不同类别的样本赋予不同的惩罚因子,从而有效避免了主动学习过程中采集到重复、无意义样本的问题,并提高了分类准确率。实验结果验证了所提出的的算法能够在获得较高分类精度的条件下有效减少标注负担。2)在主动学习的基础上,针对标注代价昂贵的问题,提出了将半监督学习的思想用于故障分类中,从而通过机器的自动迭代训练来提高故障诊断的精度,减少人工标注耗费的时间和精力。针对半监督训练中容易出现的伪标记有误问题,提出了将一种改进的基于多分类器贝叶斯决策融合的分类算法用于无标签样本的标签标注上,并分析了噪声数据的PAC可学习性以及训练集更新的充分条件,同时加入了基于最近邻规则的噪音数据剪辑方法和针对不平衡样本的SMOTE重采样技术,从而使得新样本的纯净度得到了有效的保证。实验证明,提出的半监督学习算法具有较高的分类精度和稳定性。3)针对主动学习和半监督学习两种算法本身的特性及其存在的互补性,研究了如何将这两种算法进行有效的结合来更大程度地提高分类性能。传统的主动学习方法,在选择了最具有信息量的未标记样本进行标记并用于模型更新后,不再继续利用剩余的大量未标记样本。而在有标签的训练样本非常稀少的情况下,分类结果不确定性最大的无标签样本很难通过半监督学习获得正确的标签,使得迭代过程中容易出现较为严重的错误自累积。因此,提出了一种集成主动学习和半监督学习的故障分类方法,将少量的主动学习和半监督学习结合,最大程度地改善诊断模型的性能。实验结果证明了所提出算法的有效性和优越性,具有较高的应用价值。