论文部分内容阅读
随着“工业4.0时代”和“工业互联网”的提出,现代工业面临着新的机遇和挑战。自动化系统的日趋完善,工业生产过程加快了信息化与智能化的步伐,迈入了工业大数据时代。高维度、多工况、多单元的大规模数据不仅为数据驱动建模带来了更多有价值的信息,还对传统的单机数据建模方法提出了挑战。如何充分高效地通过工业互联网平台挖掘大规模数据中蕴含的高价值信息,以及如何利用它们解决实际工业过程的问题,是目前过程建模研究的热点方向。本文从大规模工业数据出发,基于分布式并行计算架构研究了不同数据特性和过程特性下的分布式并行建模方法,用于工业过程的质量预报和过程监测。全文的主要研究内容如下:(1)针对工业过程建模面临大规模数据的问题,提出了一种基于MapReduce的分布式并行建模框架,用于关键质量变量预报。将半监督概率主成分回归模型部署到该框架下,在大型分布式数据块上并行训练局部模型,进而采用基于MapReduce的贝叶斯融合算法整合各局部模型的质量预报结果。相较于传统的单机建模算法,基于MapReduce的分布式并行半监督概率主成分回归模型在面对大规模数据时拥有更高的计算效率。并且由于模型训练过程利用了更多的数据,其预测精度也有了显著提升。(2)针对工业过程数据的非线性和半监督特性问题,提出了一种基于分层极限学习机的半监督深度学习模型。利用自编码器的深层网络结构有效地提取数据的非线性特征,并且引入流形正则化方法构造了半监督学习模型。该方法不仅可以深度挖掘有标签数据信息,还可以从大规模无标签样本中提取额外的数据特征。进一步,针对大规模工业数据下多工况过程建模的问题,依据“分而治之”的策略,提出了基于MapReduce的分布式并行极限学习机和分层极限学习机。首先利用分布式并行的K均值算法对过程的多个工况进行划分,进而分别在不同工况内采用分布式并行分层极限学习机训练局部模型,最后利用贝叶斯模型融合算法整合各局部模型,实现了对关键质量变量的在线预报。(3)针对大规模工业数据包含随机噪声和不确定性问题,提出了一种基于参数服务器架构的分布式并行概率建模框架。在该框架下,需要首先利用随机变分推断算法将基于变分推断的概率模型转变为可扩展的随机优化的形式,进而根据参数服务器计算架构对其进行分布式并行部署。本文提出了一种分布式并行高斯混合模型,用于大规模数据下的多工况过程建模。在分布式并行高斯混合模型训练过程的每次迭代中,只需要从大规模数据集中随机选择一个或一小批样本来计算梯度和更新参数,大大提高了模型的训练效率。数据集的可扩展形式使得基于参数服务器架构的分布式建模方法具备轻松处理大型数据集的能力。(4)针对多工况过程半监督数据的质量预报问题,提出了一种基于变分推断的半监督高斯混合模型。为充分利用大规模无标签数据,进一步提出了基于随机变分推断的半监督高斯混合模型,并部署成分布式并行半监督高斯混合模型,显著提升了模型训练效率。大量无标签样本参与模型训练,使得参数求解更加准确,提高了模型用于质量预报的性能。进一步,针对大规模厂级过程的多单元和多工况特性,提出了一种基于分布式并行半监督高斯混合模型的厂级过程分层质量监测算法,在质量相关子空间中,提出了从变量级、单元块级到厂级的的分层质量监测方案。(5)针对大规模工业数据的高维变量特性,在分布式并行概率建模框架下,提出了一种分布式并行概率隐变量建模方法,然后将其分别应用于大规模工业数据下的过程监测和质量预报。并且针对大规模厂级过程提出了厂级分层监测算法。首先将大规模工业过程划分为若干局部单元块,并在每个局部块内建立分布式并行的混合概率隐变量模型,进而在贝叶斯推断下实现了从厂级到单元块级,再到变量级的故障检测与诊断。不仅有效缓解了厂级过程建模的巨大计算任务,也有助于提升厂级故障检测和诊断的准确度。