论文部分内容阅读
随着各国进出口贸易往来日趋频繁,每天都会产生大量的交易数据,能否从这些海量交易数据中提取出有效信息与规则,对于企业与政府做出商业决策显得尤为重要。而数据挖掘正是实现这一手段的重要方法之一,关联规则作为数据挖掘中最活跃的研究方向,它反映了大量数据项目之间有意义的关联和联系。因此,采用数据挖掘中的关联规则技术可以从海量贸易数据中提取出有价值的规则信息,从而为决策提供参考。然而,传统的关联规则算法有很多局限性,如何提高挖掘算法的效率已成为了关联规则算法研究的核心问题。概念格作为知识表达的一种简洁手段,近年来以其在这方面特有的优势正赢得越来越多研究者的关注。
本文在对传统关联规则算法研究分析的基础上,针对进出口贸易数据的特点,将概念格模型引入关联规则算法研究当中,并针对概念格的表示、存储及访问方式进行了改进,给出了一种基于排序索引链表的概念格新算法-OICL算法,极大地提高了概念格构造及规则提取的效率,降低了算法的时空复杂度。然后针对OICL算法设计了一种高效的分布式挖掘方案,给出了算法流程图。最后使用该方案在J2EE平台上对系统进行了设计与实现。本文所做的具体工作如下:
1.介绍了数据挖掘和关联规则的基本理论,针对传统关联规则算法的缺陷,将概念格引入关联规则算法研究中,阐述了基于概念格模型的规则提取理论。
2.在分析了经典概念格算法的基础上,针对概念格的表示、存储及访问方式进行了改进,给出了一种基于排序索引链表的概念格新算法OICL。不仅对其从理论、流程等方面进行了详细地阐述,还针对OICL,算法设计了一种高效的分布式挖掘方案,给出了算法流程图。最后对该分布式算法进行了评价和实例验证。
3.基于J2EE平台设计开发了分布式数据挖掘系统。该系统采用了本文提出的分布式挖掘方案,并将OICL挖掘算法在该系统上实现。最后分析和总结了挖掘出的关联规则,实现了理论研究与实际应用的结合。