【摘 要】
:
数据挖掘是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的过程,关联规则挖掘是数据挖掘的一个重要分支。目前,该技术在商业、金融、科学研究、情报分析等方
论文部分内容阅读
数据挖掘是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的过程,关联规则挖掘是数据挖掘的一个重要分支。目前,该技术在商业、金融、科学研究、情报分析等方面得到广泛应用。关联规则挖掘中大多数使用的是Agrawal的Aprior算法,该算法基本思想使用支持度、置信度两个阈值从事务数据库中寻找概率比较高的模式,利用一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。经研究发现,支持度可以表示规则统计意义上的普遍性,可置信度却不能很好的表示规则的可信程度,可信度实际上就是一个条件概率,在一定程度上掩盖了规则的关联属性,另外层次顺序搜索的循环方法对数据库的频繁访问大大的降低了挖掘工作的效率。本文引入统计学测量相关性的方法,采用相关系数作为兴趣度,并且将兴趣度作为第一阈值,它可以有效地反映数据本身的关联特征:关联方向和关联强弱,并且避免了由支持度作为第一阈值所带来的尴尬,如果支持度设置太低,会增加规则冗余,支持度设置太高,会过滤大量有效规则,由此对经典算法加以改进,给出了基于兴趣度的关联规则挖掘算法,该算法经过实验验证,在同等条件下生成了质量更好,意义更加明确的关联规则。另外,在算法可行的前提下,根据挖掘的实际情况,对基于兴趣度的关联规则挖掘算法在性能方面进行优化,尽量降低数据存储和数据访问过程中的成本,以达到提高挖掘效率的目的。
其他文献
介绍了物联网的概念,阐述了物联网技术在图书馆工作中运用的特点,探讨了在物联网技术支撑下图书馆在建筑环境、图书管理系统、移动图书馆、馆外自助借还系统、业务管理决策等
为了提高高硅铝铸件表面电镀层与基体的结合强度,对镀前浸锌溶液进行了改进和优化,并用电化学测试技术探讨了浸锌时间对电位的影响,结果表明,经过二次浸锌能保证镀层与高硅铝
我国自古以来就是以农业立国,农业人口在我国总人口的占据中占有绝大多数的比例,耕地是整个农民生存和发展过程中所依赖的根本。然而现阶段我国城市发展过程中,存在着许多问
目的对比分析难复位型股骨粗隆间骨折的手术治疗效果。方法选取我院2015年1月~2017年1月接受手术治疗的难复位型股骨粗隆间骨折患者36例分为闭合组和切开组,切开组应用切开复
本文介绍了锁相放大器的原理和SR380锁相放大器在温度传感器校准系统中的应用。在瞬态温度测量中存在动态误差,需对温度传感器进行校准。温度传感器校准系统加入锁相放大器后
OTT TV已经发展了将近三年,业界也讨论了两年。大家主要关注在OTT TV的发展前景,以及对广电网络运营商的冲击问题。其实,OTT行业的发展带给中国广电的不仅仅是挑战,更是机遇
通用串行总线(Universal Seiral Bus),即USB,是一种新的总线接口技术。自从1996年USB-IF(USB实现者论坛)公布了USB1.0协议以来,其迅速得到发展,经过升级到USB2.0后,因特尔等
黄河是我国的第二大河,每年向渤海输入大量的淡水和营养物质,黄河口及邻近海域是我国重要的渔业区,也是黄、渤海重要洄游经济种类的产卵、育幼和索饵场。然而,随着对海洋资源
通过RTK技术在海阳市城区控制测量中应用,分析了校正参数的求取方法及影响参数精度的因素;从观测精度、基准转换参数精度和基准站控制点精度三方面入手,阐述了提高RTK高程的
随着《建设工程工程量清单计价规范》的颁布实施,一种全新的工程造价计价模式应运而生。新的计价模式给业主的工程造价控制思想及方法提出了新的要求。所以,针对工程量清单计