论文部分内容阅读
摘要:序列模式挖掘是数据挖掘中的研究热点之一,它是基于关联规则的频繁项集的挖掘,其实质是在关联模型中加入时间属性。本文利用序列模式挖掘的典型算法prefix算法对铝电解中重要的工艺参数数据进行挖掘分析,给出铝电解槽的重要的工艺参数的序列化,对于提高铝电解的生产效率,节能降耗,延长率电解槽的寿命具有重要的意义。
关键词:序列模式挖掘;关联模型;prefix算法;铝电解
中图分类号:TP393文献标识码:A文章编号:1007-9599 (2013) 05-0000-02
1引言
基于国内电解铝飞速发展,产能不断增加的大背景下,如何改进电解铝的生产工艺,减少电解铝生产过程中的能耗比,提高生产设备生产效率,就显得非常重要。
在传统铝电解槽的控制中,工艺参数的生产决策方案主要采用人工经验进行设置,具有强烈的个人主观性,而没有充分利用现有铝电解生产过程中遗留的大量历史数据,没有发现这些海量数据中蕴含的对企业生产和管理具有重要指导作用的规律和最佳决策方案。为促进铝电解的生产管理、降低生产能耗、延长设备寿命、提高生产效益,将数据挖掘技术引入铝电解工艺参数量化中,并进行深入的理论研究和实验,找出铝电解工艺参数最佳生产决策方案。
2序列模式挖掘
序列模式的概念最早是由Agrawal和Srikant提出的。挖掘相对时间或其他模式出现频率高的模式。给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。
序列模式挖掘就是从序列数据库中挖掘出频繁序列模式,为此需要将数据库转换为序列数据库。方法是把用户ID相同的记录合并,有时每个事务的发生时间可以忽略,仅保持事务间的偏序关系。
3prefix算法
该算法的基本思想是:采用分治的思想,不断产生序列数据库的多个更小的投影数据库,然后在各个投影数据库上进行挖掘。
基于该算法的相关定义:
(1)前缀:设每个元素中的所有项目按照字典序排列。给定序列a=,b=(m£n),如果ei’=ei(i£m-1),em’Íem,并且(em-em’)中的项目均在em’中项目的后面,则称b是a的前缀。
(2)投影:给定序列a和b,如果b是a的子序列,则a关于b的投影a’必须满足:b是a’的前缀,a’是a的满足上述条件的最大子序列。
(3)投影數据库:设a为序列数据库S中的一个序列模式,则a的投影数据库为S中所有以a为前缀的序列相对于a的后缀,记为S|a。
(4)投影数据库中的支持度:设a为序列数据库S中的一个序列,序列b以a为前缀,则b在a的投影数据库S|a中的支持度为S|a中满足条件b Ía.g的序列g的个数。
4铝电解工艺
4.1铝电解概述
铝电解就是通过电解得到铝。现代电解铝工业生产采用冰晶石一氧化铝融盐电解法。熔融冰晶石是溶剂,氧化铝作为溶质,以碳素体作为阳极,铝液作为阴极,通入强大的直流电后,在950℃--970℃下,在电解槽内的两极上进行电化学反应,既电解,在阳极上得到气态物质,在阴极上得到液态铝,其过程为:2AL2O3(溶解的)+3C(固体)=>4AL(液体)+3CO2(气体)
4.2铝电解槽的工艺参数
铝电解中的数据参数主要有两类:
(1)反映电解槽状态的数据:包括工作电压、平均电压、针振、电压摆、系列电压、系列电流、效应发生时刻、效应电压等。
(2)电解槽运行过程中的测量的主要工艺数据:包括温度、氧化铝浓度、出铝量、铝水平、分子比等。
本文挖掘的铝电解槽的工艺参数:设定电压,出铝量,铝电解槽槽况,分子比。通过序列模式挖掘的prefix算法根据以往的历史数据,挖掘出特定电解槽重要工艺参数的生产决策序列。
5挖掘的数据准备
5.1数据来源
挖掘所需数据来源于某铝厂的信息管理系统。将所需数据从原始数据库中提取出来,并转化为该挖掘算法所需的数据格式。
5.2挖掘的数据准备
数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
利用数据离散化算法将原始数据库中的实时具体的数据转化为所需的抽象的序列数据,也就是将事务数据库转化为挖掘所需的序列数据库。
将原始数据提取出来后进行分析处理,转化为序列模式挖掘所需的数据格式,即转化为序列数据。由于原始数据库中存储的数据是具体的实时数据,需要转为挖掘所需的抽象的序列数据库。
对原始数据的处理办法:首先对源数据进行规范化,其次进行离散化处理。
数据规范化:将提取的数据逐条分析,对于空值记录执行删除操作。
数据离散化:利用区间划分法进行离散化。所谓的区间划分法:就是将数据的值域划分为不同的区间,将具体的数据抽象为属于某个区间,该区间用一个抽象的字母所表示,组成一个序列。例如:某个变量的值域为1-9,将其划分为3个区间,1-3,4-6,7-9,所有属于1-3区间的数值用A表示,所有属于4-6区间的数值用B表示,所有属于7-9区间的用C表示。而对于具体的值如2,2.5,3,4.1,5,6,7,8.5,9则分别可以表示为A,A,A,B,B,B,C,C,C.也就是说将具体的值分别划分到不同的区间中去,进而实现数据的离散化处理。
(图1)原始数据
(图2)输入的序列模式
6挖掘结果展示及分析
本文输入的序列模式是上图2所示:
最小支持度阈值为:2
挖掘产生的序列模式:
:3;:2;:3
通过实验挖掘出的频繁序列子模式可以分析找到铝电解槽工艺参数出现的频繁序列,用于指导生产,提高效率,降低能耗。
参考文献:
[1]JiaWei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001,8.
[2]贾艳芳.频繁时间序列模式在铝电解槽生产数据处理中的研究与应用[C].北方工业大学论文库,2010.
[3]陈兰洪,李晋宏,宋威.铝电解槽槽况与决策序列挖掘研究[J].中国科技博览,2009,16.
[4]Mannila H, Toivonen H, Verkamo A. Efficient algorithm for discovering association rules [A]. AAAI Workshop on Knowledge Discovery in Databases [C].1994,181-192.
[5]Srikant R,Agrawal R. Mining generalized association rules [A]. Proceedings of the 21th International Conference on Very Large Databases [C].Zurich,Switzerland, Sept 1995:407-420.
[作者简介]王争(1981.10-),女,硕士研究生,主要研究方向为计算机软件与理论数据挖掘方向;李晋宏(1965-),男,教授,主要研究方向工业生产智能系统、数据挖掘等。
关键词:序列模式挖掘;关联模型;prefix算法;铝电解
中图分类号:TP393文献标识码:A文章编号:1007-9599 (2013) 05-0000-02
1引言
基于国内电解铝飞速发展,产能不断增加的大背景下,如何改进电解铝的生产工艺,减少电解铝生产过程中的能耗比,提高生产设备生产效率,就显得非常重要。
在传统铝电解槽的控制中,工艺参数的生产决策方案主要采用人工经验进行设置,具有强烈的个人主观性,而没有充分利用现有铝电解生产过程中遗留的大量历史数据,没有发现这些海量数据中蕴含的对企业生产和管理具有重要指导作用的规律和最佳决策方案。为促进铝电解的生产管理、降低生产能耗、延长设备寿命、提高生产效益,将数据挖掘技术引入铝电解工艺参数量化中,并进行深入的理论研究和实验,找出铝电解工艺参数最佳生产决策方案。
2序列模式挖掘
序列模式的概念最早是由Agrawal和Srikant提出的。挖掘相对时间或其他模式出现频率高的模式。给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。
序列模式挖掘就是从序列数据库中挖掘出频繁序列模式,为此需要将数据库转换为序列数据库。方法是把用户ID相同的记录合并,有时每个事务的发生时间可以忽略,仅保持事务间的偏序关系。
3prefix算法
该算法的基本思想是:采用分治的思想,不断产生序列数据库的多个更小的投影数据库,然后在各个投影数据库上进行挖掘。
基于该算法的相关定义:
(1)前缀:设每个元素中的所有项目按照字典序排列。给定序列a=
(2)投影:给定序列a和b,如果b是a的子序列,则a关于b的投影a’必须满足:b是a’的前缀,a’是a的满足上述条件的最大子序列。
(3)投影數据库:设a为序列数据库S中的一个序列模式,则a的投影数据库为S中所有以a为前缀的序列相对于a的后缀,记为S|a。
(4)投影数据库中的支持度:设a为序列数据库S中的一个序列,序列b以a为前缀,则b在a的投影数据库S|a中的支持度为S|a中满足条件b Ía.g的序列g的个数。
4铝电解工艺
4.1铝电解概述
铝电解就是通过电解得到铝。现代电解铝工业生产采用冰晶石一氧化铝融盐电解法。熔融冰晶石是溶剂,氧化铝作为溶质,以碳素体作为阳极,铝液作为阴极,通入强大的直流电后,在950℃--970℃下,在电解槽内的两极上进行电化学反应,既电解,在阳极上得到气态物质,在阴极上得到液态铝,其过程为:2AL2O3(溶解的)+3C(固体)=>4AL(液体)+3CO2(气体)
4.2铝电解槽的工艺参数
铝电解中的数据参数主要有两类:
(1)反映电解槽状态的数据:包括工作电压、平均电压、针振、电压摆、系列电压、系列电流、效应发生时刻、效应电压等。
(2)电解槽运行过程中的测量的主要工艺数据:包括温度、氧化铝浓度、出铝量、铝水平、分子比等。
本文挖掘的铝电解槽的工艺参数:设定电压,出铝量,铝电解槽槽况,分子比。通过序列模式挖掘的prefix算法根据以往的历史数据,挖掘出特定电解槽重要工艺参数的生产决策序列。
5挖掘的数据准备
5.1数据来源
挖掘所需数据来源于某铝厂的信息管理系统。将所需数据从原始数据库中提取出来,并转化为该挖掘算法所需的数据格式。
5.2挖掘的数据准备
数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
利用数据离散化算法将原始数据库中的实时具体的数据转化为所需的抽象的序列数据,也就是将事务数据库转化为挖掘所需的序列数据库。
将原始数据提取出来后进行分析处理,转化为序列模式挖掘所需的数据格式,即转化为序列数据。由于原始数据库中存储的数据是具体的实时数据,需要转为挖掘所需的抽象的序列数据库。
对原始数据的处理办法:首先对源数据进行规范化,其次进行离散化处理。
数据规范化:将提取的数据逐条分析,对于空值记录执行删除操作。
数据离散化:利用区间划分法进行离散化。所谓的区间划分法:就是将数据的值域划分为不同的区间,将具体的数据抽象为属于某个区间,该区间用一个抽象的字母所表示,组成一个序列。例如:某个变量的值域为1-9,将其划分为3个区间,1-3,4-6,7-9,所有属于1-3区间的数值用A表示,所有属于4-6区间的数值用B表示,所有属于7-9区间的用C表示。而对于具体的值如2,2.5,3,4.1,5,6,7,8.5,9则分别可以表示为A,A,A,B,B,B,C,C,C.也就是说将具体的值分别划分到不同的区间中去,进而实现数据的离散化处理。
(图1)原始数据
(图2)输入的序列模式
6挖掘结果展示及分析
本文输入的序列模式是上图2所示:
最小支持度阈值为:2
挖掘产生的序列模式:
通过实验挖掘出的频繁序列子模式可以分析找到铝电解槽工艺参数出现的频繁序列,用于指导生产,提高效率,降低能耗。
参考文献:
[1]JiaWei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001,8.
[2]贾艳芳.频繁时间序列模式在铝电解槽生产数据处理中的研究与应用[C].北方工业大学论文库,2010.
[3]陈兰洪,李晋宏,宋威.铝电解槽槽况与决策序列挖掘研究[J].中国科技博览,2009,16.
[4]Mannila H, Toivonen H, Verkamo A. Efficient algorithm for discovering association rules [A]. AAAI Workshop on Knowledge Discovery in Databases [C].1994,181-192.
[5]Srikant R,Agrawal R. Mining generalized association rules [A]. Proceedings of the 21th International Conference on Very Large Databases [C].Zurich,Switzerland, Sept 1995:407-420.
[作者简介]王争(1981.10-),女,硕士研究生,主要研究方向为计算机软件与理论数据挖掘方向;李晋宏(1965-),男,教授,主要研究方向工业生产智能系统、数据挖掘等。