论文部分内容阅读
从大型数据库中挖掘未知的并且是潜在有用的信息和知识,是数据呈爆炸性增长所提出的迫切要求,于是数据挖掘技术便应运而生了。而关联规则作为一类知识模式,是数据挖掘所要研究的一项重要内容。 目前,数据挖掘技术正在升温。作为数据挖掘技术的一个重要分支——关联规则,也成为众多研究者的研究对象。关联规则能够清楚地描述现实事物之间可能存在的某种强度的联系,有着很强的实用性,从而吸引了众多研究者的兴趣。本文结合关联规则的研究现状和最新动态,着重研究了挖掘关联规则的高效率算法及其实现。论文首先介绍了数据挖掘技术的基本概念,基本过程和一般方法;然后就关联规则的研究现状、挖掘关联规则的一般步骤进行了展开,并且探讨了关联规则的主要研究方向;接着分析了几种基本的关联规则挖掘算法,并指出了这几种算法的共同不足之处——因扫描数据库次数过多而造成的算法效率低的弊端。提出了基于前缀广义链表的关联规则生成算法和基于频繁模式增长的关联规则挖掘算法,这两种算法只需扫描数据库两次,而且不需要产生过多的候选频繁项集,这样不仅提高了算法的运行效率,而且节约了内存空间。在生成规则的过程中,为提高生成速度,采取了有效的措施,尽可能地减少除法运算。整个算法在这两个方面进行了改进,因此大大地提高了算法的运行效率。另外,将新提出的算法应用于股市板块联动中,取得了预期的运行效果。最后对整个论文工作进行了总结,展望了未来这方面工作的前景。