论文部分内容阅读
随着互联网技术及智能计算技术的发展,海量的工业数据被采集、存储及分析并用于决策支持,基于工业大数据的智能数据分析日益受到工业界及学术界的关注和重视。基于机器学习的设备故障检测是工业大数据的一类重要应用,通过及时发现设备故障有利于降低故障损失、提高工业产品质量。工业设备故障诊断通常要求错误率很低,一次失误可能造成严重后果。然而,实践及研究表明工业大数据设备故障检测中存在不可避免的不平衡数据挑战,导致机器学习算法召回率较低。本文针对工业大数据的特点,对不平衡数据机器学习算法及工业大数据实时处理技术进行了研究,并取得了如下研究成果:针对现有数据采样及集成学习等不平衡数据学习方法中存在的问题,本文根据SMOTE、Bagging、Boosting算法的基本思想,提出了基于数据采样与模型融合的不平衡数据学习算法Rotation SMOTE。该方法在模型Boosting训练过程中,根据基分类器预测结果对少数类样本进行有针对性的数据合成采样,以提高少数类样本的召回率,并通过利用PCA对原始样本进行旋转变换的方式来融合多个模型,增加样本多样性。经实验表明,与SMOTEBoost、EasyEnsemble等其它不平衡数据学习算法相比,Rotation SMOTE算法能够显著提高召回率,并且在大多数数据集上具有最佳或次佳的G-mean以及F1Score。针对基于代价敏感的Boosting不平衡数据学习算法中的局限性,即对在某一类别中所有样本的误分类代价一视同仁,本文借鉴深度学习中Focal Loss的基本思想,提出了一种能够区分样本分类难易程度的Boosting方法FocalBoost。该方法在Boosting训练过程中,将弱模型对原始样本的预测置信度作为样本权重更新参考的因素,使得每个样本而不是各类样本都能受到不同程度的关注。经实验表明,与原始的AdaBoost算法相比,FocalBoost算法能够在不平衡数据集上获得更佳的分类性能。为更好地服务于工业大数据的智能分析,本文利用Kafka、Spark、OpenTSDB等开源的分布式软件设计并实现了一个基于工业大数据的实时处理框架,并从优化配置、减少计算和网络开销以及负载均衡等方面优化了处理性能。经实验测试,该系统处理性能可以达到100万以上数据点每秒。