论文部分内容阅读
进入当今21世纪“信息高速公路”大发展的信息时代,现代科学技术迅速发展,企业规模日益扩大,越来越多的企业采用计算机及相应的信息技术进行管理和运营,使得企业生成、收集、存储和处理的数据量与日俱增,复杂程度不断增大,人们迫切需要有新的、更为有效的手段对各种“数据矿藏”(信息资源)进行开采以发挥其应用潜能。数据采掘和知识发现正是在这样的背景下产生并迅速发展起来。 数据采掘和知识发现的研究涉及统计学、人工智能、机器学习、神经网络等诸多的领域。 本文着重对其中较为重要的关联规则采掘问题进行了研究,特别对关联规则采掘的算法进行了深入的探讨,对关联规则采掘问题的提出、解决进行了详细的描述。深刻剖析了典型的关联规则采掘算法Apriori及其变形算法AprioriTid的实现方式、数据结构、内存的使用等重要因素。围绕关联规则采掘中影响采掘效率的几个关键问题对算法进行了改进,有效地减少了采用层次算法进行关联规则采掘时各层读入的记录数,大大提高了采掘的效率。 关联规则采掘起源于菜篮交易数据,但并非只适用于交易数据库,本文做了有益的尝试,将关联规则采掘有效地应用于过程工业中,结 北京化工大学学位论文用纸合过程工业数据的特点,采掘工业中存在的一般关联规则和趋势关联规则。在此基础上,采用大量模拟数据以及两个实际的化工过程生产问题进行验证,并对采掘出的关联规则进行了有意义地分析。 最后,结合作者开发的洛阳明花集团洗涤剂生产质量管理信息系统,设计了旨在协助决策者找到影响生产能力因素的生产能力采掘系统原型VTPDMo