论文部分内容阅读
数据挖掘作为知识发现中的重要组成部分,近年来引起了信息产业界的关注,其目标是将看似普通的数据转换成有价值的知识和信息,再将知识应用于各种场合。关联规则技术是数据挖掘领域的一个活跃分支,新成果不断涌现,已成为了数据挖掘领域中不可替代的角色。 本文以关联规则为研究对象,分析了几种经典挖掘算法,针对其存在的问题提出了改进;随后本文将关联规则实际应用于经典的智能仓储管理系统一中药饮片调剂系统,用于提高系统的工作效率。主要研究工作如下: (1)对经典的Apriori算法进行了研究与探讨,包括算法的核心思想和具体实现步骤。分析了该算法存在的缺陷,即生成大量的候选项集和多次扫描数据库。同时简要介绍了几种改进方法。 (2)研究FP-Tree数据结构和FP-Growth算法,发现FP-Growth能够克服Apriori算法的缺陷,具备优越性。实验结果表明,FP-Growth算法相比Apriori算法能够显著地提高挖掘效率。 (3)分析FP-Growth算法,发现传统的FP-Growth算法需要频繁地建立条件模式库和条件树,因此提出两点改进:首先采用哈希树技术,提高频繁1-项集的生成效率,减少FP-Tree的建树时间;其次引入路径权值的概念,将条件模式库进行压缩,从而避免了频繁建树和递归挖掘。结合实际性能测试,验证了改进算法的性能优势。 (4)本文结合一个具体应用实例,将关联规则算法运用到中药饮片调剂系统中,用于指导药品的合理摆放,实验测试表明,本文的配仓方法能够明显提升系统的工作效率。