论文部分内容阅读
数据挖掘正受到产业界的极大关注,主要原因是现实世界中存在大量可以广泛使用的数据,并且将这些数据转换成有用的信息和知识成为当务之急。挖掘出的知识和信息可以广泛用于生产设计,工程控制,市场管理,商务分析和科学探索等领域。数据挖掘是指从海量数据中自动搜索有着特殊关系的,不易被发现的知识和信息的过程,是目前数据库和人工智能领域研究的热点问题。而关联规则挖掘作为数据挖掘领域研究与应用的热点之一,主要用于发现大量数据集中项集之间的相关联系或者有趣的关联。随着海量数据不停地被存储和收集,关联规则挖掘正越来越受到业界人士们的重视和欢迎。
针对实际交易数据库中,项目的重要性不相同以及项目的分布不均匀这两个问题,本文重点研究了加权关联规则挖掘算法。首先系统地总结了现有的加权关联规则挖掘算法,并对此进行了全面分析,之后在此基础上提出了改进的挖掘算法,最后验证了改进算法的有效性。本文的研究内容主要包括以下几个方面:
1.介绍了现有的加权关联规则算法,并针对不同项目在现实数据库中的分布不均匀以及重要性不同两个问题,提出了一种改进的基于等价类和多最小支持度的加权关联规则算法,从而挖掘出那些覆盖较少数据但却有意义、用户更感兴趣的关联规则。改进算法根据项目的最小支持度升序对事务交易记录进行等价类的划分,之后依据项目的最小支持度降序依次求出每一等价类内的加权频繁项集。算法采用了垂直数据库的数据表示形式,避免了对数据库的重复扫描。仿真实验结果证明,改进算法具有良好的挖掘性能。
2.将加权关联规则挖掘算法应用到时态数据库中,并提出了一种改进的基于时态约束的加权关联规则挖掘算法。改进算法结合了项目的生命周期,允许用户为不同的项目设定不同的权重;利用了树和矩阵的数据存储结构,运行过程中只需扫描一次数据库,同时采用了向量之间的交集操作,加快了加权支持度的计算速度,提高了时态关联规则的挖掘效率。改进算法挖掘出的关联规则既体现了数据固有的时间特性,又体现了项目和交易记录的权重,更具有实际意义。
3.最后将加权关联规则挖掘算法应用于智能交通中,并利用定量的实际数据,简要给出了加权关联规则挖掘的一般过程。实际证明,生成的加权关联规则经过评价后,可为决策部门做出适当的决策提供支持。
针对实际交易数据库中,项目的重要性不相同以及项目的分布不均匀这两个问题,本文重点研究了加权关联规则挖掘算法。首先系统地总结了现有的加权关联规则挖掘算法,并对此进行了全面分析,之后在此基础上提出了改进的挖掘算法,最后验证了改进算法的有效性。本文的研究内容主要包括以下几个方面:
1.介绍了现有的加权关联规则算法,并针对不同项目在现实数据库中的分布不均匀以及重要性不同两个问题,提出了一种改进的基于等价类和多最小支持度的加权关联规则算法,从而挖掘出那些覆盖较少数据但却有意义、用户更感兴趣的关联规则。改进算法根据项目的最小支持度升序对事务交易记录进行等价类的划分,之后依据项目的最小支持度降序依次求出每一等价类内的加权频繁项集。算法采用了垂直数据库的数据表示形式,避免了对数据库的重复扫描。仿真实验结果证明,改进算法具有良好的挖掘性能。
2.将加权关联规则挖掘算法应用到时态数据库中,并提出了一种改进的基于时态约束的加权关联规则挖掘算法。改进算法结合了项目的生命周期,允许用户为不同的项目设定不同的权重;利用了树和矩阵的数据存储结构,运行过程中只需扫描一次数据库,同时采用了向量之间的交集操作,加快了加权支持度的计算速度,提高了时态关联规则的挖掘效率。改进算法挖掘出的关联规则既体现了数据固有的时间特性,又体现了项目和交易记录的权重,更具有实际意义。
3.最后将加权关联规则挖掘算法应用于智能交通中,并利用定量的实际数据,简要给出了加权关联规则挖掘的一般过程。实际证明,生成的加权关联规则经过评价后,可为决策部门做出适当的决策提供支持。