论文部分内容阅读
数据挖掘经过二十几年的发展,已经有很多成熟的理论,应用也已经渗入到各个领域。近几年,计算机技术和网路技术高速发展,人们所面临的数据量呈指数增长,传统的数据挖掘方法及技术将面临巨大困难,如何从大量的原始数据中挖掘出有价值的知识成为研究难点。在电力行业,随着电力业务系统的深入应用以及智能电表的普及和推广,用于电力科学研究的电力运行数据、测试、仿真等数据量呈现指数级增长,关联关系多且复杂。数据挖掘技术与大数据技术的结合成为一个新的研究方向。本文针对以上情况,首先详细分析了数据挖掘算法中的Apriori算法的优缺点,针对Apriori算法存在的缺陷,提出基于迭代矩阵的改进算法IM_Apriori算法,IM_Apriori算法用布尔矩阵存储数据集,在计算过程中用k-频繁集矩阵和k-候选集矩阵代替原布尔矩阵,减少计算次数。并且在Spark中实现IM_Apriori算法的并行化,在理论方面分析了本文的改进算法的高效性,然后建立一个电力大数据平台,把平台定位为数据共享平台、数据分析应用平台、大数据应用开发运行平台,从数据采集、存储、预处理、计算、分析、可视化等多个层面为人们提供服务。本文分析了电力大数据平台建设需求,详细设计了电力大数据平台架构设计,从平台整体架构、功能架构、技术架构等几个方面阐述大数据平台的具体实现方式,结合具体技术详细介绍了从数据采集、预处理、数据存储、数据处理和数据展现的实现过程,为电力行业进行数据挖掘与具体应用提供可靠的分析挖掘平台。之后分别在单机环境和集群环境下进行了实验,验证了IM_Apriori算法在执行效率上优于其它改进算法。最后,以大数据平台作为依托,结合居民用电数据将IM_Apriori算法应用于居民用电分析中,对改进后的算法完成了具体应用。