论文部分内容阅读
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。关联规则挖掘是数据挖掘领域一个非常重要的技术,它由R.Agrawal等人首先提出以解决事务数据库分析等问题。关联规则主要通过对数据库事务数据的统计,寻找满足最小支持度的最大频繁集,通过最大频繁集获取满足最小可信度的项目集关联规则,以此预测项目集出现的相互不确定性关系,用以辅助销售、生产、信息管理以及相关领域的计划与决策。
针对关联规则经典Apriori算法存在的扫描数据库次数多,计算量大,数据库事务数据更新、最小支持度改变时频繁集更新不便等问题,本文提出了一种基于概率分布的新算法——关联规则的概率算法。该算法将项目集进行数字化,将项目集的出现转换为随机事件,并采用随机变量表示,使得项目集出现的频率近似转换为相应随机变量在某范围取值的概率,从而将通过最小支持度寻找频繁集的过程转换为在大于某一概率下的随机变量取值计算。由于项目集合计算转换为数值计算,针对数据库事务数据更新、最小支持度改变等问题的频繁集更新问题就变得简单和容易。在项目集对应的有向图辅助下,概率算法最多只需要扫描数据库一遍便可以找到频繁集。与经典Apriori算法相比,在同一实验样本及更新条件下,概率算法比Apriori算法有更少的计算量和更快的计算速度。