关联规则的概率算法及其应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:mosalin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。关联规则挖掘是数据挖掘领域一个非常重要的技术,它由R.Agrawal等人首先提出以解决事务数据库分析等问题。关联规则主要通过对数据库事务数据的统计,寻找满足最小支持度的最大频繁集,通过最大频繁集获取满足最小可信度的项目集关联规则,以此预测项目集出现的相互不确定性关系,用以辅助销售、生产、信息管理以及相关领域的计划与决策。 针对关联规则经典Apriori算法存在的扫描数据库次数多,计算量大,数据库事务数据更新、最小支持度改变时频繁集更新不便等问题,本文提出了一种基于概率分布的新算法——关联规则的概率算法。该算法将项目集进行数字化,将项目集的出现转换为随机事件,并采用随机变量表示,使得项目集出现的频率近似转换为相应随机变量在某范围取值的概率,从而将通过最小支持度寻找频繁集的过程转换为在大于某一概率下的随机变量取值计算。由于项目集合计算转换为数值计算,针对数据库事务数据更新、最小支持度改变等问题的频繁集更新问题就变得简单和容易。在项目集对应的有向图辅助下,概率算法最多只需要扫描数据库一遍便可以找到频繁集。与经典Apriori算法相比,在同一实验样本及更新条件下,概率算法比Apriori算法有更少的计算量和更快的计算速度。
其他文献
本文考虑以下逆变分不等式问题:IVI(Ω.f):找到x∈Rn,使得f(x)∈Ω,(y—f(x))Tx≥0,(A)y∈Ω.这类问题来源与一些不同的系统控制问题。它与传统的变分不等式问题不同的是函数值f(x)
近年来,多智能体系统的一致性问题受到越来越多的学者们的关注,同时它在很多方面都得到了广泛地运用.所谓一致性就是指多智能体系统的每个个体都按照某种控制规则、相互交流信
随着我国开放式基金在金融市场的影响力日益显现,客观、科学地对开放式基金进行业绩评估对于基金投资者、基金管理公司和监管当局都有着十分重要的意义。本文通过借鉴国外证券
基于统计学习理论的支持向量机算法具有坚实的数学理论基础和严格的理论分析,是机器学习中的一种新方法和研究新热点,该理论受到广泛的重视并应用到不同的领域,已初步表现出很多
负荷预测是电力系统中一项重要的工作。由于电力系统负荷的复杂性,使得预测的精度很难达到电力部门的要求,研究开发有效的预测方法以提高预测精度一直是人们追求的目标。 本
对于优化问题的研究,三角函数降维可以说是降低目标函数维度的有效方法之一。本文分别针对两种约束下的优化问题提出相应的降维形式,根据降维后函数的性态,一维搜索均采用随机搜索方法。本文将降维技术应用到全局优化问题的求解中,提出了一个基于降维的全局优化近似算法,用以求解带箱约束的非线性全局优化问题。首先在区间[0,π]上构造一个新的降维公式,讨论了基于该降维变换曲线的α-致密度,再从降维曲线长度对该近似算
学位
随着社会科技与经济的不断进步,对人才的要求也越来越高,而创新创业能力是社会需求型人才不可缺少的一种能力.因此高校要将培养大学生创新创业能力作为教学的重点从而增强学
以不完备决策信息系统为研究对象,以粗糙集理论为工具,针对此系统中已有的三种模型进行了改进.首先,在不完备决策信息系统中,基于限制容差关系的粗糙集模型已不能处理信息引
组合优化是最优化理论与方法的重要分支,也是近年的研究热点,在科学,工程,经济,管理,军事,通信网络等诸多领域有着广泛且重要的应用。本论文讨论了两类重要的0-1组合优化问题:0-1域上
学位
本文探讨了一类关于复发事件的一般加速均值回归模型,它包含了近期提出的加速失效时间模型、Cox型连接函数的均值模型、加速比率回归模型等。在一般模型中,协变量的效果被识别
学位