论文部分内容阅读
数据库技术的逐渐成熟、网络技术的迅速普及和计算机硬件的不断出新,使人们采集数据的能力得到了极大的提高,从而导致了全球范围内数据存储量的急剧增大。为增强人们对这些海量数据的理解能力,数据挖掘技术近年来得到了快速发展。 关联规则挖掘是数据挖掘的重要内容之一,1993年由Agrawal等人提出,它最初是以分析事务数据库中项与项之间联系为目标,后来的研究者们对问题原型进行多方面的改进和扩充。目前,关联规则挖掘技术已经被应用到商业、电讯、金融、农业、医疗等领域,取得了良好的效果。 关系数据库是众多行业和部门用于存储其生产、管理和科研等大量信息的重要形式,数据量的增长极为迅速。积极研究在关系数据库中挖掘关联规则的有效技术具有极为广阔的发展前景。 关系数据库中隐含的关联规则通常具有多维性、多值性和多概念层性,比事务数据库中的布尔型关联规则更加复杂。本文在对Apriori、SETM等事务数据库中布尔型关联规则的典型算法进行分析后,提出了一种关系数据库中关联规则挖掘算法。该算法的核心是利用SQL语言的聚集查询和连接等语句对关系数据库进行操作,完成频繁谓词集和强规则的搜索过程。由于SQL语言对关系数据库操作的高效性和算法与数据库管理系统的紧密性,所以算法具有较高的挖掘效率。 基于约束的关联规则挖掘一方面可以加强用户对挖掘过程的主导作用,使挖掘目的更加明确,另一方面可以大大减少算法的搜索次数,提高挖掘效率。本文在无约束的关联规则挖掘算法的基础上,经过改进和简化,提出了元规则约束下的挖掘算法,为用户快速探查和考证等方面的工作提供了有力支持。 在以上研究的基础上,本文介绍了一个简单的挖掘工具原型的设计与实现方法,其中考虑到关系数据库中属性的取值在现实中往往具有概念分层,所以在挖掘工具中提供了属性概念分层的静态解决方案,使用户可以在属性的不同概念分层中进行关联规则挖掘。