论文部分内容阅读
摘要:本文针对采煤机运行状态数据实时清洗技术分析,结合理论实践,在简要阐述状态数据实时清洗必要性的基础上,分析了目前数据清洗中存在的问题,并提出采煤机运行状态数据实时清洗技术的具体应用。分析结果表明,采煤机在运行过程中,会产生大量数据,一些是有用数据,一些是无用数据,科学合理的应用数据清洗技术,可保证数据质量,提升采煤机运行性能,值得高度重视。
关键词:采煤机;运行状态数据;数据清洗技术;数据检测
引言
在信息化工程不断推进的背景下,数据仓库的应用愈发普遍,对采煤机而言,数据仓库是决策支持的基础,也是保证采煤机时刻处于最佳运行状态的关键。但数据仓库中包含多种数据,需要存储在不同的硬件平台上,采用不同的操作系统,在具体运行过程中,受到多方面因素的共同影响,难免会发生数据质量问题。如相似数据重复记录、异常数据记录等。通过数据清洗技术,可对数据仓中数据进行规范、标准、有序的整理,及时消除数据歧义,提升数据质量。基于此,开展采煤机运行状态数据实时清洗技术分析就显得尤为必要。
1、采煤机运行状态数据实时清洗的重要性
采煤机运行状态数据通常会存储在数据仓库中,但采煤机在运行中经常会形成一些脏数据,对数据仓库造成不良影响,甚至会影响数据仓库运行的效率,降低采煤机运行状态数据的挖掘效能,影响最终的决策管理效果。为保证采煤机数据仓库系统中各项数据记录的准确性、一致性,就必须先对采煤机运行状态数据进行预处理,数据清洗就是数据预处理的核心环节,在整个数据仓库中占据非常重要的地位。
2、目前数据清洗中存在的问题
第一,数据清洗属于一个崭新的研究课题,专业研究数据清洗机构比较少。目前数据清洗的研究主要体现在英文数据上。而中文数据清洗和英文数据存在较大出入,英文数据清洗的排序方式,还不能完全适应中文数据清洗。
第二,虽然目前检测重复记录备受关注,也出现了很多措施方法,但无论是检测效率,还是检测精度,都不太理想。尤其是大规模数据清洗时,耗时比较长,需要更加先进算法的支持。
第三,现有的很多数据清洗软件、系统、工具都只能对特定的领域进行清洗,存在较大的局限性。
第四,我国现有数据清洗工具比较少,且多集中在重复记录数据清洗上,很少有研究关于完整数据、错误数据的清洗问题。很少利用孤立点的检测方法来检测数据源中的各项异常记录。
3、采煤机运行状态数据实时清洗技术
3.1构建数据清洗系统框架
现有的数据清洗系统存在很多局限性,如:缺乏必需的扩展性、交互性等,急需设计出一种全新的数据清洗系统框架。
3.2数据检测
数据检测是采煤机运行状态数据实时清洗的第一步,主要作用是确定目标数据存在何种问题,再通过现成的检测算法进行检测,用户还可以实际情况,适当添加和调整算法,利于提升数据检测的效率和准确性,这也反应了该数据实时清洗系统的灵活性及扩展性。常用的数据检测算法有以下两种:
第一种,统计学算法,如切比雪夫定理、贝叶斯推理等,都是数据检测中常用的统计学算法,其中切比雪夫定理的应用最多,主要内容是假设X是一个随机变数取区间(0,∞)上的数值,F(x)是其分布函数,设Xα(α>0)的数学期望M(Xα)存在,a>0,则不等式成立。通过切比雪夫定理,可计算某个字段值的平均值、标准差、取值范围、最大值、最小值等。依次来发现数据中存在的异常字段,可随机选择样本数据进行分析,虽然随度比较快,但准确有待提升。
第二种,模式识别法。通过数据挖掘和机器学习算法来寻找异常数据,通过划分、分类、聚类等技术相互结合的方法,可发现采煤机运行状态的异常记录数据。如果一个模式被定义为数据集中的一组记录具有P%的相似字段,P是根据采煤机运行实际情况的确定值,一般都在90%以上,应用此种数据检测算法,可生成一个记录子集,而不是整个数据集,发现模式的几率会大幅度提升。
3.3数据清洗策略
就采煤机运行状态数据而言,数据质量问题主要存在两大类,其一是模式数据质量问题,其二是数据本身的质量问题,因此,在数据清洗时也有两种清洗策略,一种是模式层的数据清洗策略,另一种是实例层的数据清洗策略。
3.3.1 模式层的数据清洗策略
在模式层中,数据质量问题主要体现为结构设计不合理,缺乏属性间的完整性和约束性,从冲突的角度来看,包括两种冲突,一种是命名冲突,另一种是结构冲突。命名冲突又可分为同名异义和异名同义,其中同名异义指的是相同名称代表着不同的对象,异名同义则指不同名称代表了相同对象。结构冲突引发的主要原因是在不同数据源中进行的不同表示方式引起的。常见结构冲突包括:数据类型冲突、数据依赖冲突、数据关键字冲突等。一旦发现数据模式问题,也不代表能够非常轻松的解决相关问题,仅凭计算机对数据模式结构进行结构修改,很难完成数据清洗。需要手工清洗来完成。在手工清洗过程中,可采用计算机转换函数,如队列操作的SUM函数、ADD函数、DROP函数等辅助清洗,以降低手工清洗的工作量。
3.3.2实例层数据清洗策略
在采煤机运行状态数据实例层数据清洗中,需要结合不同的情况,选择与之相适的数据清洗策略。
数据集中异常记录清洗,可采取空值清洗策略,空值问题可简单的分为两种,一种是缺失值,另一种是空值。其中前者是字段的值实际存在,但值却是空值。在处理时可将字段值直接替换为空。缺失值处理时,某些缺失值可从根本数据源或者其他数据源中推導出来,可以用平均值推导、中间值推导,也可以用复杂的概率统计函数值来代替缺失值在,但准确性有限,此时可人工属于一个比较接近的值,以保证数据清洗质量。
结束语
综上所述,本文结合理论实践,分析了采煤机运行状态数据实时清洗技术,分析结果表明,针对采煤机运行状态数据存在的质量问题,需要采取有针对性的数据清洗技术,有数据检测系统、数据清洗清洗、设计评估系统、元数据管理系统组成的数据清洗系统,可对各项数据进行全面分析,然后开展有针对性的清洗,保证数据质量,具有很强的通用性、适应性及交互性,满足采煤机持续稳定运行的需求,值得大范围推广应用。
参考文献
[1]曹勇,崔治国,武根峰,等.基于机器学习算法的空调系统运行数据噪声识别与清洗技术研究[J].建筑节能,2018,046(005):79-83.
关键词:采煤机;运行状态数据;数据清洗技术;数据检测
引言
在信息化工程不断推进的背景下,数据仓库的应用愈发普遍,对采煤机而言,数据仓库是决策支持的基础,也是保证采煤机时刻处于最佳运行状态的关键。但数据仓库中包含多种数据,需要存储在不同的硬件平台上,采用不同的操作系统,在具体运行过程中,受到多方面因素的共同影响,难免会发生数据质量问题。如相似数据重复记录、异常数据记录等。通过数据清洗技术,可对数据仓中数据进行规范、标准、有序的整理,及时消除数据歧义,提升数据质量。基于此,开展采煤机运行状态数据实时清洗技术分析就显得尤为必要。
1、采煤机运行状态数据实时清洗的重要性
采煤机运行状态数据通常会存储在数据仓库中,但采煤机在运行中经常会形成一些脏数据,对数据仓库造成不良影响,甚至会影响数据仓库运行的效率,降低采煤机运行状态数据的挖掘效能,影响最终的决策管理效果。为保证采煤机数据仓库系统中各项数据记录的准确性、一致性,就必须先对采煤机运行状态数据进行预处理,数据清洗就是数据预处理的核心环节,在整个数据仓库中占据非常重要的地位。
2、目前数据清洗中存在的问题
第一,数据清洗属于一个崭新的研究课题,专业研究数据清洗机构比较少。目前数据清洗的研究主要体现在英文数据上。而中文数据清洗和英文数据存在较大出入,英文数据清洗的排序方式,还不能完全适应中文数据清洗。
第二,虽然目前检测重复记录备受关注,也出现了很多措施方法,但无论是检测效率,还是检测精度,都不太理想。尤其是大规模数据清洗时,耗时比较长,需要更加先进算法的支持。
第三,现有的很多数据清洗软件、系统、工具都只能对特定的领域进行清洗,存在较大的局限性。
第四,我国现有数据清洗工具比较少,且多集中在重复记录数据清洗上,很少有研究关于完整数据、错误数据的清洗问题。很少利用孤立点的检测方法来检测数据源中的各项异常记录。
3、采煤机运行状态数据实时清洗技术
3.1构建数据清洗系统框架
现有的数据清洗系统存在很多局限性,如:缺乏必需的扩展性、交互性等,急需设计出一种全新的数据清洗系统框架。
3.2数据检测
数据检测是采煤机运行状态数据实时清洗的第一步,主要作用是确定目标数据存在何种问题,再通过现成的检测算法进行检测,用户还可以实际情况,适当添加和调整算法,利于提升数据检测的效率和准确性,这也反应了该数据实时清洗系统的灵活性及扩展性。常用的数据检测算法有以下两种:
第一种,统计学算法,如切比雪夫定理、贝叶斯推理等,都是数据检测中常用的统计学算法,其中切比雪夫定理的应用最多,主要内容是假设X是一个随机变数取区间(0,∞)上的数值,F(x)是其分布函数,设Xα(α>0)的数学期望M(Xα)存在,a>0,则不等式成立。通过切比雪夫定理,可计算某个字段值的平均值、标准差、取值范围、最大值、最小值等。依次来发现数据中存在的异常字段,可随机选择样本数据进行分析,虽然随度比较快,但准确有待提升。
第二种,模式识别法。通过数据挖掘和机器学习算法来寻找异常数据,通过划分、分类、聚类等技术相互结合的方法,可发现采煤机运行状态的异常记录数据。如果一个模式被定义为数据集中的一组记录具有P%的相似字段,P是根据采煤机运行实际情况的确定值,一般都在90%以上,应用此种数据检测算法,可生成一个记录子集,而不是整个数据集,发现模式的几率会大幅度提升。
3.3数据清洗策略
就采煤机运行状态数据而言,数据质量问题主要存在两大类,其一是模式数据质量问题,其二是数据本身的质量问题,因此,在数据清洗时也有两种清洗策略,一种是模式层的数据清洗策略,另一种是实例层的数据清洗策略。
3.3.1 模式层的数据清洗策略
在模式层中,数据质量问题主要体现为结构设计不合理,缺乏属性间的完整性和约束性,从冲突的角度来看,包括两种冲突,一种是命名冲突,另一种是结构冲突。命名冲突又可分为同名异义和异名同义,其中同名异义指的是相同名称代表着不同的对象,异名同义则指不同名称代表了相同对象。结构冲突引发的主要原因是在不同数据源中进行的不同表示方式引起的。常见结构冲突包括:数据类型冲突、数据依赖冲突、数据关键字冲突等。一旦发现数据模式问题,也不代表能够非常轻松的解决相关问题,仅凭计算机对数据模式结构进行结构修改,很难完成数据清洗。需要手工清洗来完成。在手工清洗过程中,可采用计算机转换函数,如队列操作的SUM函数、ADD函数、DROP函数等辅助清洗,以降低手工清洗的工作量。
3.3.2实例层数据清洗策略
在采煤机运行状态数据实例层数据清洗中,需要结合不同的情况,选择与之相适的数据清洗策略。
数据集中异常记录清洗,可采取空值清洗策略,空值问题可简单的分为两种,一种是缺失值,另一种是空值。其中前者是字段的值实际存在,但值却是空值。在处理时可将字段值直接替换为空。缺失值处理时,某些缺失值可从根本数据源或者其他数据源中推導出来,可以用平均值推导、中间值推导,也可以用复杂的概率统计函数值来代替缺失值在,但准确性有限,此时可人工属于一个比较接近的值,以保证数据清洗质量。
结束语
综上所述,本文结合理论实践,分析了采煤机运行状态数据实时清洗技术,分析结果表明,针对采煤机运行状态数据存在的质量问题,需要采取有针对性的数据清洗技术,有数据检测系统、数据清洗清洗、设计评估系统、元数据管理系统组成的数据清洗系统,可对各项数据进行全面分析,然后开展有针对性的清洗,保证数据质量,具有很强的通用性、适应性及交互性,满足采煤机持续稳定运行的需求,值得大范围推广应用。
参考文献
[1]曹勇,崔治国,武根峰,等.基于机器学习算法的空调系统运行数据噪声识别与清洗技术研究[J].建筑节能,2018,046(005):79-83.