论文部分内容阅读
随着我国信息化产业的繁荣发展,数据挖掘作为一门新兴的交叉学科在各行业的广泛应用引起了信息产业界的极大关注,同时,这门技术具备的强大数据分析优势对传统的数据管理模式产生了较大冲击。而数据挖掘算法分析是贯穿于整个数据挖掘过程的一个重要环节,对算法的研究和改进是不断提高数据挖掘效率的有效途径。因此,构建一个高效的数据挖掘算法,与开发相应的应用管理系统,将能大大改善目前传统数据管理系统所处的瓶颈现状。本文对数据挖掘技术的相关基本概念进行了介绍,从分析Apriori算法和K-Means算法原理入手,探索经典的数据挖掘算法存在的不足,并对其进行优化和改进。算法研究的重点之一是针对Apriori算法在候选集产生过程中存在的不足提出了一种优化有效候选集产生的MA-Apriori算法,该算法在原有传统Apriori算法基础上,改进了数据集的存储方式,增加了候选集产生的判断条件,提高了原算法频繁项集生成的准确性;对K-Means算法的改进是算法研究的另一重点,针对K-Means算法初始聚类中心点随机选取的不确定性,提出了一种改进的IM-K-Means算法,该算法在原K-Means算法基础上调整了初始聚类中心点的选取方法,缩短了寻找最优聚类中心点的时间,提高了算法效率。其次,利用SPSS Clementine数据挖掘软件搭建关联、聚类、分类和预测四种建模过程,该软件采用了CRISP-DM标准,实现对原始数据隐藏信息较为全面的挖掘和结果分析说明,将所得建模结果作为后续人口收入管理系统运行结果的参考依据。最后,根据传统数据管理系统的特点结合数据挖掘技术的优势,从系统需求分析到功能设计并考虑到了改进后MA-Apriori算法和IM-K-Means算法的应用,开发出了一套基于人口收入数据的数据挖掘应用系统,该系统在基本数据管理功能上增加了关联功能和聚类功能并附带了分类预测功能,实现了对原始数据的深入挖掘,完善了传统数据管理系统的功能。