论文部分内容阅读
随着信息技术的发展,数据挖掘技术得到了广泛的关注。在数据挖掘技术中有很多研究领域,关联规则数据挖掘就是其中一个重要的研究方向,对它进行深入研究不仅有着重要的理论意义,而且有着重要的应用价值。关联规则数据挖掘于1993年由Agrawal等人提出,它最初是以分析事务数据库中项与项之间联系为目标,后来的研究者们对问题原型进行多方面的改进和扩充。目前,关联规则挖掘技术已经被应用到商业、电信、金融、农业、医疗等领域,并取得了良好的效果。
关联规则挖掘算法是关联规则数据挖掘研究中的主要内容之一,迄今为止己提出了多种关联规则挖掘算法,其中最著名的是Agrawal提出的Apriori算法。Apriori算法属于间接挖掘算法,它挖掘的是事务数据库中的全部关联规则,然而在实际应用中,企业关心的可能是与该公司某一产品或新推出的产品相关的关联规则,因此基于固定目标项目的挖掘具有一定的实用价值。本文在Apriori算法的基础上提出了一种适合目标项目挖掘的算法IBDF-Miner算法,同时针对Apriori算法的不足之处也作了一些改进,算法以改进的位图数据格式为存储结构,使得支持度的计算简单方便,而不再需要反复扫描数据库,并通过对位图矩阵的相应处理有效缩小了频繁项目集的生成空间,实验证明该算法有较好的执行效率。
根据规则涉及的维数关联规则可分为两种:单维关联规则和多维关联规则。由于关系数据库是数据挖掘最流行、最丰富的数据源,而关系数据库中隐含的关联规则通常具有多维性,因此本文对多维关联规则的挖掘算法进行了一些研究。传统的多维关联规则挖掘方法是将分类属性和量化属性进行离散化处理后采用成功的单维布尔关联规则挖掘算法进行挖掘,本文尝试直接对多维数据利用标准SQL语言来进行多维关联规则挖掘,算法的核心是利用sQL语言的查询和多表连接等语句对数据库进行操作,完成频繁谓词集和强规则的搜索过程。
在以上研究的基础上,本文将多维关联规则具体应用于道路交通事故数据挖掘中,从记录交通事故的数据库中发现有价值的规律。针对道路交通事故数据特点,本文提出了基于约束规则后件的关联规则挖掘算法,并将算法用于交通事故中“人、车、路”等因素对事故产生的影响的分析研究,得出了一些有实际意义的结论,这些结论与当地交警的经验基本上是一致的,根据这些结论可以采取针对性措施,用于辅助交通管理部门对今后的道路交通安全的改进工作,以预防和减少事故发生,保障人们的生命和财产的安全。