面向工业大数据的不平衡数据处理方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:q3821713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术及智能计算技术的发展,海量的工业数据被采集、存储及分析并用于决策支持,基于工业大数据的智能数据分析日益受到工业界及学术界的关注和重视。基于机器学习的设备故障检测是工业大数据的一类重要应用,通过及时发现设备故障有利于降低故障损失、提高工业产品质量。工业设备故障诊断通常要求错误率很低,一次失误可能造成严重后果。然而,实践及研究表明工业大数据设备故障检测中存在不可避免的不平衡数据挑战,导致机器学习算法召回率较低。本文针对工业大数据的特点,对不平衡数据机器学习算法及工业大数据实时处理技术进行了研究,并取得了如下研究成果:针对现有数据采样及集成学习等不平衡数据学习方法中存在的问题,本文根据SMOTE、Bagging、Boosting算法的基本思想,提出了基于数据采样与模型融合的不平衡数据学习算法Rotation SMOTE。该方法在模型Boosting训练过程中,根据基分类器预测结果对少数类样本进行有针对性的数据合成采样,以提高少数类样本的召回率,并通过利用PCA对原始样本进行旋转变换的方式来融合多个模型,增加样本多样性。经实验表明,与SMOTEBoost、EasyEnsemble等其它不平衡数据学习算法相比,Rotation SMOTE算法能够显著提高召回率,并且在大多数数据集上具有最佳或次佳的G-mean以及F1Score。针对基于代价敏感的Boosting不平衡数据学习算法中的局限性,即对在某一类别中所有样本的误分类代价一视同仁,本文借鉴深度学习中Focal Loss的基本思想,提出了一种能够区分样本分类难易程度的Boosting方法FocalBoost。该方法在Boosting训练过程中,将弱模型对原始样本的预测置信度作为样本权重更新参考的因素,使得每个样本而不是各类样本都能受到不同程度的关注。经实验表明,与原始的AdaBoost算法相比,FocalBoost算法能够在不平衡数据集上获得更佳的分类性能。为更好地服务于工业大数据的智能分析,本文利用Kafka、Spark、OpenTSDB等开源的分布式软件设计并实现了一个基于工业大数据的实时处理框架,并从优化配置、减少计算和网络开销以及负载均衡等方面优化了处理性能。经实验测试,该系统处理性能可以达到100万以上数据点每秒。
其他文献
根据国际刑法,海盗罪指发生在公海上对船舶和飞机及其所载人员、财物实施非法暴力、扣留或掠夺的行为,其犯罪构成相当复杂.由于中国刑法目前尚未设立该罪名,在刑法适用上困难
街道经济在城市区域经济中占据十分重要的地位。但老的发展模式已经不适应社会经济发展形势.新时期我们需要不断探索街道经济新的发展路径,充分发挥街道在城市发展中所起的重要
深入开展学习实践科学发展观活动,就是要在“落实”二字上下功夫。科学发展观的内涵极为丰富,是个重大的理论问题,也是个重大的实践问题,是建设社会主义新农村的根本方针,只有在科
手枪射击是人民警察必须掌握的执法战斗技能.在射击动作中,正确的击发动作是能否准确、有效击中目标的关键.文章论述了击发动作的要素、保证高质量击发的条件、击发动作的训
游艇是一种经济,游艇产业具有回报率高、带动性强的特点。随着技术的进步和材料的发展,游艇的设计方法和建造方式也实现了大跨步的发展。中国大陆游艇产业起步较晚,缺乏游艇的设计制造人才,没有自己的核心技术,这极大的限制了我国游艇行业的发展。基于此现状,论文针对16 m高速游艇的相关参数及性能进行初步设计研究,得到一些有用的设计方法和结论,对同行从业者有一定的借鉴作用。本文首先以某16m高速游艇为例,从游艇
研究背景:视网膜色素上皮(Retinal pigmented epithelium,RPE)细胞是一层位于脉络膜毛细血管和视网膜感光细胞之间的多边形极性细胞,其离子转运、营养分泌、屏障作用以及吞噬代
West Karabulak油田M-Ⅱ油藏为受构造控制的层状边底水油藏,属于中孔、中渗储层。2016年采取注水开发后,油田生产加快,已进入中高含水期,边水、底水、注入水水淹普遍存在。因