论文部分内容阅读
[摘 要]近些年來,随着信息技术的飞速发展,企业内部收集了大量的数据。从元数据的角度考虑,这些数据仅仅是数据,数据产生后,后续对元数据的再次利用却很少。长此下去,这些数据慢慢就会变成没有用的垃圾数据。而与此同时数据库技术也已经发展到一定的阶段,并得到了广泛应用,各个企业都已经积累了无数的数据资源,数据挖掘技术能够帮助他们从数据中发掘出其内在的规律,找出有益于公司发展的规则,正好能满足企业的这一需求。以此对数据挖掘技术引用到企业内部设备管理中的必要性进行初步探讨。
[关键词]大数据数据挖掘 设备管理
中图分类号:TP311 文献标识码:A 文章编号:1009-914X(2015)05-0265-01
近些年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验;(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。在一些其他领域也起到重要的支撑作用,特别是需要数据库系统提供有效的存储、索引和查询处理支持,源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
1 数据挖掘技术简介
数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程[1]。因此,可以说数据挖掘是一个从数据到知识的过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
2 数据挖掘运用的理论与技术
随着信息科技超乎想象的进展,许多新的计算机分析工具问世,例如关系型数据库、模糊计算理论、基因算法则以及类神经网络等,使得从数据中发掘宝藏成为一种系统性且可实行的程序。
数据挖掘的技术有很多种,按照不同的分类有不同的分类法。数据挖掘中常用的一些技术:统计技术,关联规则,基于历史的分析,遗传算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析,差别分析,概念描述等十三种常用的数据挖掘的技术[2]。下面,作者将就关联规则做以介绍。
3.关联规则概念
关联规则(Association Rules)挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。一个关联规则[3]是形如的蕴含式,这里A、B为项集,AR,BR,并且AB=Φ。
关联规则挖掘的目的就是从事务数据库中挖掘出满足最小支持度(min_sup)和最小置信度(min_conf)的关联规则,挖掘一般分为以下2个过程:1.在事务数据库中找出所有大于最小支持度(min_sup)的频繁项集。2.由第一步找出的频繁项集产生期望的关联规则,即所产生的每条关联规则的置信度必须不小于最小置信度Apifori算法。
4.数据挖掘技术在设备管理中的应用
本文将利用关联规则算法对某公司售后服务部门所使用的设备管理数据进行挖掘。
结合一年来该公司现场执法取证类设备在使用过程中暴露出现的故障问题及设备维护保障等情况的统计数据,应用数据挖掘技术进行分析。原始数据集由该公司设备维护管理系统中的设备名称、使用单位、维护记录、更换部件、故障排查方法等有关数据字段抽取并汇总。
根据实际情况,假设支持度为0.2,采用Apriofi算法,产生的最大频繁项目集见表3。由试验结果可以看出,D:电容失效;F:数据端出错;G:调频键失效;J:电压过载;K:插脚脱焊。发生故障的概率比较高(在20组数据中,发生故障的概率达到20%以上)。
依据产生的频繁项生成关联规则,结果见表4。如果设定最小信任度为0.6,那么从表4可以得出3条关联规则,分别为:D-->F;D-->G;F-->G。
对应到该取证设备故障为:电容失效-->数据端出错;电容失效-->调频键失效;数据端出错-->调频键失效。
2014年7月,该单位要执行一项任务,按公司领导要求调用该现场取证执法仪类设备12套。为证明上述结论的有效性,将这12套设备分为2组,每组6套,分别为A组和B组。其中A组在投入使用前,根据结论对相关的部位进行预防性维护,而对B组则按常规维护,不做任何维护。经过1天24小时不间断使用,结果发现,A组中6套设备全部正常运行,且状态良好;而B组中则有2套设备出现调频键失效故障,1套设备相继出现电容失效、数据端出错故障,影响了取证的工作。由此得出,应用关联规则对设备的系统数据进行挖掘,对于优化设备的性能,提高设备在实战中的稳定性,确保任务顺利完成具有重大意义。
5.结语
数据挖掘现在越来越为更多的人们所关注,被认为是未来最有发展前景和广阔市场潜力的新兴学科之一。随着信息技术和数据库技术的不断发展,各行各业的人们掌握了大量的数据,在竞争日益激烈的现今社会里,如何迅速有效的获得隐藏在数据之后的有用的知识信息,成为众多企业决策者和管理者的当务之急。
数据挖掘是一门综合性的学科,其中用到了数据仓库、数理统计[4]。计算机技术等很多知识,不同的主题需要选择不同的方法进行分析,经过十多年的研究,每一种方法都踊跃出大量的算法,这些算法中也各有利弊,在不同的问题上要选择不同的算法,才能最大限度的发挥数据挖掘的潜能。
此外,数据挖掘除了发展和完善自己的理论和方法,也要充分借鉴和汲取数据挖掘和知识发现、数据库、机器学习、人工智能、数理统计、医疗、分子生物学等学科领域的成熟的理论和方法。
参考文献
[1] 韩家炜,堪博著,范明,孟小峰译数据挖掘概念与技术(第2版)[M]北京:机械工业出版社,2007.
[2] 苏新宁杨建林邓三鸿等,数据挖掘理论与技术[M]北京:科学技术文献出版社,2003.
[3] 梁循数据挖掘算法与应用北京大学出版社,2006.
[4] 石丽,李坚数据仓库与决策支持国防工业出版社,2003.
[关键词]大数据数据挖掘 设备管理
中图分类号:TP311 文献标识码:A 文章编号:1009-914X(2015)05-0265-01
近些年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验;(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。在一些其他领域也起到重要的支撑作用,特别是需要数据库系统提供有效的存储、索引和查询处理支持,源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
1 数据挖掘技术简介
数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程[1]。因此,可以说数据挖掘是一个从数据到知识的过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
2 数据挖掘运用的理论与技术
随着信息科技超乎想象的进展,许多新的计算机分析工具问世,例如关系型数据库、模糊计算理论、基因算法则以及类神经网络等,使得从数据中发掘宝藏成为一种系统性且可实行的程序。
数据挖掘的技术有很多种,按照不同的分类有不同的分类法。数据挖掘中常用的一些技术:统计技术,关联规则,基于历史的分析,遗传算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析,差别分析,概念描述等十三种常用的数据挖掘的技术[2]。下面,作者将就关联规则做以介绍。
3.关联规则概念
关联规则(Association Rules)挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。一个关联规则[3]是形如的蕴含式,这里A、B为项集,AR,BR,并且AB=Φ。
关联规则挖掘的目的就是从事务数据库中挖掘出满足最小支持度(min_sup)和最小置信度(min_conf)的关联规则,挖掘一般分为以下2个过程:1.在事务数据库中找出所有大于最小支持度(min_sup)的频繁项集。2.由第一步找出的频繁项集产生期望的关联规则,即所产生的每条关联规则的置信度必须不小于最小置信度Apifori算法。
4.数据挖掘技术在设备管理中的应用
本文将利用关联规则算法对某公司售后服务部门所使用的设备管理数据进行挖掘。
结合一年来该公司现场执法取证类设备在使用过程中暴露出现的故障问题及设备维护保障等情况的统计数据,应用数据挖掘技术进行分析。原始数据集由该公司设备维护管理系统中的设备名称、使用单位、维护记录、更换部件、故障排查方法等有关数据字段抽取并汇总。
根据实际情况,假设支持度为0.2,采用Apriofi算法,产生的最大频繁项目集见表3。由试验结果可以看出,D:电容失效;F:数据端出错;G:调频键失效;J:电压过载;K:插脚脱焊。发生故障的概率比较高(在20组数据中,发生故障的概率达到20%以上)。
依据产生的频繁项生成关联规则,结果见表4。如果设定最小信任度为0.6,那么从表4可以得出3条关联规则,分别为:D-->F;D-->G;F-->G。
对应到该取证设备故障为:电容失效-->数据端出错;电容失效-->调频键失效;数据端出错-->调频键失效。
2014年7月,该单位要执行一项任务,按公司领导要求调用该现场取证执法仪类设备12套。为证明上述结论的有效性,将这12套设备分为2组,每组6套,分别为A组和B组。其中A组在投入使用前,根据结论对相关的部位进行预防性维护,而对B组则按常规维护,不做任何维护。经过1天24小时不间断使用,结果发现,A组中6套设备全部正常运行,且状态良好;而B组中则有2套设备出现调频键失效故障,1套设备相继出现电容失效、数据端出错故障,影响了取证的工作。由此得出,应用关联规则对设备的系统数据进行挖掘,对于优化设备的性能,提高设备在实战中的稳定性,确保任务顺利完成具有重大意义。
5.结语
数据挖掘现在越来越为更多的人们所关注,被认为是未来最有发展前景和广阔市场潜力的新兴学科之一。随着信息技术和数据库技术的不断发展,各行各业的人们掌握了大量的数据,在竞争日益激烈的现今社会里,如何迅速有效的获得隐藏在数据之后的有用的知识信息,成为众多企业决策者和管理者的当务之急。
数据挖掘是一门综合性的学科,其中用到了数据仓库、数理统计[4]。计算机技术等很多知识,不同的主题需要选择不同的方法进行分析,经过十多年的研究,每一种方法都踊跃出大量的算法,这些算法中也各有利弊,在不同的问题上要选择不同的算法,才能最大限度的发挥数据挖掘的潜能。
此外,数据挖掘除了发展和完善自己的理论和方法,也要充分借鉴和汲取数据挖掘和知识发现、数据库、机器学习、人工智能、数理统计、医疗、分子生物学等学科领域的成熟的理论和方法。
参考文献
[1] 韩家炜,堪博著,范明,孟小峰译数据挖掘概念与技术(第2版)[M]北京:机械工业出版社,2007.
[2] 苏新宁杨建林邓三鸿等,数据挖掘理论与技术[M]北京:科学技术文献出版社,2003.
[3] 梁循数据挖掘算法与应用北京大学出版社,2006.
[4] 石丽,李坚数据仓库与决策支持国防工业出版社,2003.