论文部分内容阅读
随着计算机控制技术的逐步普及,铝电解生产过程积累了大量的原始数据。用数据挖掘技术,找出这些数据中蕴含的新颖的知识,来指导生产,对改善我国铝电解行业决策多靠经验的现状,提高决策的科学化水平,实现节能降耗有着重要的意义。
针对铝电解槽日报表数据人为因素多、对电解槽的决策多为短期的“点决策”、流行的数据挖掘过程模型与软件工具不适合铝电解这类复杂生产过程等实际问题,本论文从铝电解生产实际出发,以节能降耗、提高企业可持续发展潜力为目标,着重进行了三个方面的探索性研究:研究生成子聚类这种近似的(而不是精确的)数据挖掘算法,来解决噪声干扰的问题;研究新的闭合序列模式挖掘算法,并用于寻找电解槽连续多天的运行状态,来解决生产决策多为短期的“点决策”问题;研究新的数据挖掘过程模型,从而体现铝电解复杂工业生产的特点,来解决经典模型与铝电解具体生产实践相结合的问题。
本文的研究内容和创新点概括如下:
1)提出了一种基于生成子的频繁项集聚类算法FG-Cluster。由于生成子是全体频繁项集的无损表示,故对生成子进行聚类,与对全体频繁项集进行聚类具有同样的效果。首先,利用最小描述长度原理,讨论了选择生成子进行聚类的合理性;其次,给出了生成子的剪枝策略,并在FP-树的基础上,提出了挖掘生成子的算法。最后,提出一种新的项集相似性的度量标准,以及最大频繁生成子的概念,并给出了以最大频繁生成子为中心的生成子聚类算法。在基准数据集和铝电解生产真实数据集上的实验结果表明,FG-Cluster算法可有效地减少项集的数量,并具有较高的挖掘效率。
2)提出了一种基于闭项集的频繁闭序列挖掘算法CSCI,其主要思想是借鉴闭项集的挖掘方法来研究闭序列模式的挖掘问题,从而利用闭项集研究中的多种剪枝策略来提高闭序列的挖掘效率。首先论证了闭序列模式只能由闭项集组成;其次,在包含索引的基础上,给出了一种新的、基于闭项集的闭序列模式的扩展策略;最后,给出了一种深度优先的挖掘频繁闭序列的新算法。在基准数据集和铝电解生产真实数据集上的实验结果表明,该算法具有较高的挖掘效率。
3)在杨炳儒教授提出的基于内在认知机理的数据挖掘过程模型的基础上,针对铝电解生产数据的特点,提出了一种面向铝电解复杂生产的数据挖掘过程模型。该模型的主要特色与创新之处在于:首先,强调了OLAP的作用,体现了决策不仅依赖于挖掘结果,同时还依赖于数据自身变化的过程的思路。其次,利用六西格玛方法持续地改进数据质量,确保了挖掘结果的真实有效,顺应了工业生产企业大力推广六西格玛方法的趋势。第三,强调了工艺人员和领域知识的参与,部分实现了双库协同机制,更加符合铝电解生产企业的实际情况。
4)在本文提出的模型与算法的基础上,集成现有主流挖掘算法与OLAP方法,实现了一个数据挖掘原型系统。在真实生产数据中运行了经典的聚类、关联规则和分类算法,所得到的挖掘结果得到了现场工艺人员的认可。