论文部分内容阅读
聚类分析是数据分析中的一种重要方法,是数据挖掘与知识发现中的主要任务之一,也是模式识别中非监督模式分类的一个重要分支。聚类是对没有类别标志的数据集分组的过程,在这一过程中仅依靠数据间的某种相似度(或相异度)度量将数据集划分为若干个子集,使得同一子集数据之间的相似度尽可能大,不同子集数据之间的相似度尽可能小。聚类分析的应用极为广泛,诸多领域都涉及到了聚类分析方法的研究与应用,并已提出了大量的理论和方法,取得了丰硕的研究成果。电力变压器是一种造价较高影响较大的电力设备,其故障诊断研究具有重要的理论价值和实用价值。溶解气体分析(Dissolved Gas analysis, DGA)能够有效地发现电力变压器内部潜伏性绝缘故障以及发展程度,因而被广泛应用。DGA与聚类分析相结合,是进一步提高电力变压器故障诊断准确性的一种有效途径。本文对聚类分析中的聚类有效性问题、基于目标函数的模糊聚类算法和遗传模糊聚类算法进行了研究,并将上述研究成果应用于电力变压器故障诊断,主要工作包括以下内容:针对传统的聚类有效性函数在度量模糊划分紧致性和离散性方面的一些不足,根据模糊集理论,结合模糊C-均值聚类算法的约束条件,提出了聚类模糊集概念及其形式化定义,并定义了聚类模糊度和格贴近度,分别将它们用作为模糊划分的紧致性和分离性指标,效果良好。在以上工作的基础上,设计了两个新的基于模糊度和贴近度的模糊聚类有效性函数,在第一个函数中,模糊度和贴近度处于对称的位置,能根据其数值的相对大小自动调节各自在聚类有效性函数中的作用;在第二个函数中,为了提高函数对模糊划分的评判敏感性,分别使用聚类模糊度的最大值和聚类离散度的最小值作为紧致性和分离性指标。实验结果表明,上述函数具有较强的聚类评判能力,性能优良。静态聚类是指需要事先给定聚类数的聚类分析,在实际应用中有一定的局限性。针对这个问题,提出一种基于遗传算法的动态模糊聚类算法,实现聚类数的自动计算。算法采用基于聚类原型的实数编码方式,且长度可变,不同的码长对应于不同的聚类个数。设计了新颖的交叉和变异算子以适应变长遗传编码。使用聚类局部优化算子,实现聚类与遗传算法的结合,增加遗传算法的局部搜索能力,提高收敛速度。实验结果表明,该算法能自动获取最优的类别数且聚类效果良好。为了求解加权模糊聚类中权值的计算和优化问题,提出基于目标函数的加权模糊聚类算法,该算法采用交替优化方法,在迭代过程中,分别对模糊划分矩阵、聚类原型和属性权值进行优化。为了提高算法的全局搜索能力,还提出一种基于双编码遗传算法的加权模糊聚类算法,一条染色体同时包含了聚类原型和属性权值编码,在聚类过程中它们同时进化。上述算法可实现划分矩阵、聚类原型和属性权值的交替优化和进化,实验结果良好。溶解气体分析(Dissolved Gas analysis, DGA)能够有效地发现电力变压器内部潜伏性故障及其发展程度,是一种应用广泛的电力变压器故障诊断方法。理论分析和实际应用表明,电力变压器绝缘故障与油中特征气体组分含量以及特征气体组分比值密切相关,本文据此提出针对油中特征气体组分含量和特征气体组分比值两种数据的规格化以及压缩与提升方法,合理并且有效地完成了组分含量和组分比值数据的融合,实现了对上述两种主要故障信息的综合利用。对于这种合成数据,使用本文提出的聚类有效性函数获得了正确的故障类别数,使用本文提出的动态模糊聚类算法和加权模糊聚类算法进行故障聚类,效果良好。实验结果显示该方法的正判率较传统的特征气体法、改进三比值法均有不同程度的提高。