论文部分内容阅读
电容型设备一旦发生缺陷,特别是发生“紧急”或“重大”缺陷,将会对电网的正常运营造成极大的干扰,甚至造成巨大的损失。因此,对电容型设备缺陷数据进行挖掘,找出电容型设备发生各种缺陷时的准确信息,这对电容型设备缺陷发生类型,缺陷发生时间进行预测,具有非常重要的研究意义和实用价值。在电容型设备缺陷数据中,主要是来自于电网企业日常运维记录的文本数据,很多字段都采用自然语言描述,这些字段的描述没有规范,工作人员在录入缺陷描述文本时随意性强,不同人员对于同一类缺陷,录入的缺陷文本长度和文本内容也不相同,这对缺陷文本挖掘造成极大的挑战,电容型设备缺陷文本数据常常具有复杂度高,数据量大,处理难度大等特点。本论文围绕电容型设备缺陷文本数据挖掘开展研究,并利用知识三元组实现缺陷文本数据的存储与查询。本论文的研究内容与研究结果如下:(1)本论文采用TF-IDF(Term Frequency-Inverse Document Frequency)算法对缺陷文本进行编码,编码后每一个缺陷文本样本的向量维度是10675。但编码后,词数最多的电容型缺陷文本仅有136个词,即在词数最多的电容型缺陷文本向量中,有值的元素只占总向量维度的1.3%左右,故TF-IDF编码后,缺陷文本特征是非常稀疏的。因此,本论文采用非负矩阵分解算法对TF-IDF编码的缺陷文本进行降维。(2)针对TF-IDF算法对缺陷文本进行编码存在的不足,本论文在TF-IDF算法基础上,采用基于特征扩展的方法对缺陷文本进行编码,即对TF-IDF编码的10675个词进行挑选,将对文本类别具有高表征能力的词挑选出来,挑选出的词作为缺陷文本的特征空间,降低向量的维度;然后通过词间的互信息对缺陷文本进行扩展。(3)在基于TF-IDF、TF-IDF非负矩阵分解、特征扩展等算法对电容型设备缺陷数据特征进行预处理后,本论文分别采用K均值聚类(K-Means Clustering)算法和层次聚类(Hierarchical Clustering)算法对三种特征处理后的电容型设备缺陷数据集进行聚类。研究结果表明在以上模型中,采用TF-IDF非负矩阵分解特征处理后,K-Means聚类效果最好,聚类后其轮廓系数值为0.92,聚类的最佳类别值为163。(4)在数据集经过最优聚类模型处理基础上,本论文采用朴素贝叶斯、随机森林以及BERT(Bidirectional Encoder Representation from Transformers)等算法对电容型设备缺陷文本原始数据以及在特征扩展后的电容型缺陷文本数据分别进行分类。研究结果表明基于特征扩展的方法可以有效改善三种分类算法的性能,在本论文的三种分类模型中,基于特征扩展的BERT模型,对电容型设备缺陷文本分类性能最好,其分类精度从0.98提高到0.99。朴素贝叶斯和随机森林分类精度从0.74,0.86分别提高到0.78,0.88。(5)在对电容型设备缺陷文本数据进行分类之后,本论文采用依存分析算法提取分类之后的电容型设备缺陷文本中的知识三元组,并选择Neo4j作为知识三元组的存储数据库,实现电容型设备缺陷文本数据的存储与查询。