论文部分内容阅读
乍载设备作为中国列车运行控制系统的核心装备之一,其重要性不言而喻。在实际运营中,列控车载设备故障频率仍然较高,现有的依靠维护人员经验进行车载设备故障诊断的方式效率低,诊断时间长,直接影响行车效率,甚至危及行车安全。因此,铁路运营部门迫切需要探索能够提高车载设备故障诊断效率的辅助维护方法。现场记录的故障现象描述文本(以下简称“故障文本”)中隐含了大量和故障类别相关的信息。对故障文本进行表示,构建“故障文本-故障类别”的故障文本分类系统,可有效辅助车载维护人员进行故障诊断,对提高故障诊断效率具有重要的意义。然而,车载设备故障文本具有长度短,缺乏明确统一的记录格式,不同故障类别文本数目差别大的特点,使得传统的词袋模型特征表示方法和分类算法不能适用于车载设备故障文本分类器的构建。针对上述问题,本文提出了一种融合词特征和主题特征的故障文本特征提取方法,在此基础上,构建了基于代价敏感支持向量机的故障文本分类系统。具体工作如下:(1)基于信息增益提取故障文本的词特征。首先使用词袋模型进行文本表示,针对文本词袋模型表示维度高,包含大量无关特征的问题,本文提出了一种基于信息增益的故障文本词特征提取方法,对文本词袋模型表示进行特征提取,保留与分类任务相关的特征,得到故障文本的词特征表示;(2)针对词袋模型在短文本特征表示上的不足,本文提出了一种基于多粒度Latent Dirichlet Allocation(LDA)模型的主题特征提取方法,通过将文本特征从词空间映射到主题空间的方式,对故障文本的词袋模型表示进行特征扩展。针对LDA模型对主题数目敏感,主题数目在实际应用中难以确定的问题,同时为了更好地提取故障文本的主题特征,本文首先使用困惑度指标对不同主题个数的LDA主题特征空间进行选择,得到一组不同主题个数的LDA主题特征空间集合;在此基础上,提出了一种基于改进相关统计量Relief(Relevant Features)的主题特征空间融合算法,对主题特征空间集合上的各个主题特征进行融合,得到故障文本的多粒度主题特征;(3)通过使用串行特征融合策略对故障文本的词特征和多粒度主题特征进行融合得到故障文本的特征向量表示;(4)针对故障文本类别分布不均衡,造成少数类样本分类效果差的问题,本文提出了一种基于代价敏感支持向量机的故障文本分类模型构建方法。通过调整支持向量机训练过程中不同类别样本误分类代价的方式,提高少数类样本数据误分类代价,降低多数类样本数据误分类代价,使得支持向量机在不同类别样本上代价敏感,从而改善分类器在少数类样本上的分类准确度。最后,本文将提出的特征提取和基于代价敏感支持向量机的分类器构建方法与传统的方法进行了对比实验。相比于传统的词袋模型特征表示方法,本文提出的特征提取方法可有效地弥补词袋模型在短文本特征表示上的不足,提高文本分类精度;同时,相比于传统的分类器,基于代价敏感支持向量机构建的分类器可有效改善故障文本少数类上的分类准确度。实验结果表明本文提出的故障文本分类模型可有效辅助维护人员进行车载设备故障诊断,提高车载设备故障诊断效率。